2020年11月06日
“iFLYTEK A.I. 開發(fā)者大賽”是由科大訊飛發(fā)起的頂尖人工智能競賽平臺(tái),匯聚產(chǎn)學(xué)研各界力量,面向全球開發(fā)者發(fā)起算法及創(chuàng)新應(yīng)用類挑戰(zhàn),推動(dòng)人工智能前沿科學(xué)研究和創(chuàng)新成果轉(zhuǎn)化,培育人工智能產(chǎn)業(yè)人才,助力人工智能生態(tài)建設(shè)。 一路披荊斬棘,奪得亞軍
2020 iFLYTEK A.I.開發(fā)者大賽
從6月22日正式啟動(dòng)報(bào)名
共吸引了來自全球9000多支團(tuán)隊(duì)參賽
在全國線下10大城市路演
通過層層角逐
68個(gè)優(yōu)秀開發(fā)者團(tuán)隊(duì)歷經(jīng)淬煉,脫穎而出
上演了一場智慧繽紛的A.I.巔峰之戰(zhàn)
華付信息AILAB團(tuán)隊(duì)成員高攀
在決賽現(xiàn)場答辯
最終經(jīng)過各大賽道
國內(nèi)外專家評(píng)委團(tuán)隊(duì)的嚴(yán)格評(píng)選
誕生了36支獲勝隊(duì)伍
華付信息AILAB團(tuán)隊(duì)
憑借出色的解決方案和技術(shù)優(yōu)勢
在此次算法競賽中斬獲了
自然場景文字檢測挑戰(zhàn)賽亞軍
攻克自然場景文字檢測難題
▎自然場景文字檢測主要存在3大難點(diǎn)
第一是文本自身的多樣性,自然場景中文字具有多樣的字體、顏色、長寬比、大小、形狀和藝術(shù)風(fēng)格;
第二是自然場景圖片的背景十分復(fù)雜,且現(xiàn)實(shí)生活中存在一些結(jié)構(gòu)與文本類似的對(duì)象,比如說窗戶,磚瓦,柵欄,草地等等;
第三是圖片容易受成像環(huán)境影響,測試圖片自身可能存在不均勻光照、模糊、低分辨率等情況。
▎剛開始采用語義分割方案,效果并不理想
細(xì)心一點(diǎn)的人一定會(huì)發(fā)現(xiàn)在自然場景中文字的形狀是任意的,使用分割的方法就不需要考慮文字的形狀和尺度,因此團(tuán)隊(duì)首先采用了PSENet作為基線,并在此基礎(chǔ)上進(jìn)行改進(jìn)。
實(shí)驗(yàn)發(fā)現(xiàn),對(duì)于密集的豎直文本,則會(huì)出現(xiàn)大量誤檢(豎直方向的文本行被檢測成多段,或者被檢測成水平方向),如下圖所示:
由于缺乏實(shí)例級(jí)別的監(jiān)督信息,雖然文本區(qū)域被準(zhǔn)確地得到了,但是正確的實(shí)例很少。為了緩解這個(gè)問題,團(tuán)隊(duì)設(shè)計(jì)了文本實(shí)例嵌入模塊來學(xué)習(xí)文本實(shí)例的特征。該模塊通過增大不同文本實(shí)例間的特征距離以及縮小同一文本實(shí)例間像素的特征距離進(jìn)行學(xué)習(xí)。在后處理中,使用基于度量的聚類算法將特征距離近的文本候選區(qū)域合并。
最終算法性能大概提升了2%,但總體效果并不理想。
▎通過調(diào)研和實(shí)驗(yàn)發(fā)現(xiàn),實(shí)例分割方案的基線遠(yuǎn)高于語義分割
經(jīng)過調(diào)研之后,團(tuán)隊(duì)選擇了結(jié)構(gòu)更復(fù)雜但性能更好的二階段實(shí)例分割模型作為基線繼續(xù)改進(jìn)。其中性能最高的單模型為HTC + Mask-iou Head,原始HTC模型只有box的置信度,無法用來評(píng)估m(xù)ask分割的好壞,Mask-iou的分?jǐn)?shù)在后處理中可以用來過濾掉置信度不高的檢測結(jié)果。
模型框架示意圖
自然場景文字的形狀是任意的,團(tuán)隊(duì)采用了可形變卷積網(wǎng)絡(luò)(DCN)來克服幾何形狀的變化。在多GPU訓(xùn)練中,使用了SyncBN避免batchsize對(duì)BN層造成影響。同時(shí)針對(duì)困難樣本容易造成誤檢的情況,使用了難負(fù)樣本挖掘(OHEM)技術(shù)。
圖片中文字的尺度變化極大,團(tuán)隊(duì)采用了多尺度訓(xùn)練/測試進(jìn)一步提高算法性能。
模型的輸出是一幅由0/1組成的二值圖,為了使網(wǎng)絡(luò)模型的輸出更符合預(yù)期,團(tuán)隊(duì)設(shè)計(jì)了一系列的后處理方法。若分割mask進(jìn)行聯(lián)通區(qū)域分析后由多個(gè)區(qū)域組成,則取面積最大的區(qū)域;若分割mask為非法多邊形,比如有孔洞的圓環(huán),則舍棄內(nèi)徑,取外徑輪廓作為結(jié)果。
在復(fù)賽的最后階段,團(tuán)隊(duì)采用多模型Ensemble策略,使用Polygon-NMS算法融合多個(gè)模型的結(jié)果,最終取得91.77%的F-score。
華付信息AILAB參賽成員
左柯南海,右高攀
兩人均為華付AI算法研究院研究員
總體而言,自然場景文本檢測與識(shí)別都是比較難的任務(wù),目前還沒有達(dá)到商用水平。近些年,學(xué)術(shù)界主要關(guān)注于如何檢測和識(shí)別任意形狀的文本,提高模型的魯棒性。在未來,anchor-free的檢測器以及檢測識(shí)別一步到位的端到端模型可能是一種趨勢。
此次取得的競賽成果充分體現(xiàn)了華付信息AI開發(fā)團(tuán)隊(duì)始終聚焦于人工智能技術(shù)的實(shí)踐創(chuàng)新,每一個(gè)方案背后都凝結(jié)了開發(fā)團(tuán)隊(duì)對(duì)技術(shù)的日夜打磨,從技術(shù)實(shí)現(xiàn)到方案落地,所有細(xì)節(jié)都經(jīng)過了層層推敲。
助力客戶實(shí)現(xiàn)智能驅(qū)動(dòng)持續(xù)創(chuàng)造最大價(jià)值永遠(yuǎn)是每一個(gè)華付人肩上的使命!