人工智能應用落地如火如荼,科技巨頭間的技術競爭也在風起云涌。3月29日,在國際頂級賽事Pascal VOC挑戰(zhàn)賽目標檢測Competition 3子任務中,搜狗人工智能圖像團隊所提交的FPNSSD深度模型,獲得了77.0的高分,一舉刷新了該項任務的世界最好成績。(成績查詢網(wǎng)址:http://host.robots.ox.ac.uk:8080/leaderboard/displaylb.php?challengeid=11&compid=3)。

PASCAL VOC挑戰(zhàn)賽是計算機視覺目標檢測的經(jīng)典權威賽事,其數(shù)據(jù)集標注質(zhì)量高、場景復雜、目標多樣、檢測難度大,是快速檢驗算法有效性的首選。在計算視覺領域,Pascal VOC挑戰(zhàn)賽與ImageNet同為世界頂級的比賽,是國內(nèi)外AI公司競相展開激烈競爭的主賽場。
PASCAL VOC的數(shù)據(jù)集包括20個類別:人類,動物(鳥、貓、牛、狗、馬、羊),交通工具(飛機、自行車、船、公共汽車、小轎車、摩托車、火車),室內(nèi)物體(瓶子、椅子、餐桌、盆栽植物、沙發(fā)、電視)。其中,搜狗圖像團隊參加的Competition 3子任務,以官方提供的數(shù)據(jù)集為訓練集,不能添加其他額外標注數(shù)據(jù),更能體現(xiàn)參賽團隊的模型設計和技術功底。
搜狗圖像團隊研發(fā)的FPNSSD檢測算法,借鑒了RetinaNet的架構(gòu)設計思想并優(yōu)化經(jīng)典的SSD檢測算法,設計出基于ResNet152的Feature Pyramid Network(FPN)網(wǎng)絡結(jié)構(gòu),同時融合淺層與深層的多尺度特征信息,這種在模型上的選擇和優(yōu)化策略大大增強了對小目標物體的檢測能力。在此次挑戰(zhàn)賽中,搜狗圖像團隊的FPNSSD檢測算法在20個子類別中獲得10個單項第一,其中在鳥、貓、狗等小物體類別上勝出優(yōu)勢明顯,充分驗證了FPNSSD檢測算法在模型結(jié)構(gòu)設計上的先進性。
此外,F(xiàn)PNSSD檢測算法采用SoftmaxLoss + Hard Negative Mining的訓練方式,在FPNSSD框架中相對當前業(yè)內(nèi)常用的基于FocalLoss的訓練方式,能取得更高精度。
搜狗圖像團隊成員大多來自清華、北大、中科院、浙大等高校,曾先后取得幾十項相關技術專利。團隊長期專注于場景文字檢測識別、人臉識別、圖像細粒度分類、敏感圖像檢測、圖像理解等前沿領域研究,相關成果已廣泛應用于搜狗旅行翻譯寶、搜狗翻譯APP、搜狗輸入法、搜狗汪仔答題助手、搜狗識圖等產(chǎn)品,在眾多垂直領域及具體場景中滿足著廣大用戶日益多樣化、個性化的應用需求。
不僅如此,搜狗人工智能圖像團隊的前沿成果,還通過搜狗AI開放平臺,正在為金融、保險、醫(yī)療等行業(yè)客戶提供優(yōu)質(zhì)的AI服務和解決方案。作為人工智能帶路黨的搜狗,未來還將基于圖像識別技術在更多場景實現(xiàn)進一步突破創(chuàng)新,帶來更豐富便捷的AI體驗。