怎么写网络小说,小说网,我吃西红柿

< 返回列表

華付信息AILAB團(tuán)隊(duì)斬獲2020 iFLYTEK A.I.開發(fā)者大賽亞軍

2020年11月06日

“iFLYTEK A.I. 開發(fā)者大賽”是由科大訊飛發(fā)起的頂尖人工智能競賽平臺(tái)，匯聚產(chǎn)學(xué)研各界力量，面向全球開發(fā)者發(fā)起算法及創(chuàng)新應(yīng)用類挑戰(zhàn)，推動(dòng)人工智能前沿科學(xué)研究和創(chuàng)新成果轉(zhuǎn)化，培育人工智能產(chǎn)業(yè)人才，助力人工智能生態(tài)建設(shè)。

一路披荊斬棘，奪得亞軍

2020 iFLYTEK A.I.開發(fā)者大賽

從6月22日正式啟動(dòng)報(bào)名

共吸引了來自全球9000多支團(tuán)隊(duì)參賽

在全國線下10大城市路演

通過層層角逐

68個(gè)優(yōu)秀開發(fā)者團(tuán)隊(duì)歷經(jīng)淬煉，脫穎而出

上演了一場智慧繽紛的A.I.巔峰之戰(zhàn)

華付信息AILAB團(tuán)隊(duì)成員高攀

在決賽現(xiàn)場答辯

最終經(jīng)過各大賽道

國內(nèi)外專家評(píng)委團(tuán)隊(duì)的嚴(yán)格評(píng)選

誕生了36支獲勝隊(duì)伍

華付信息AILAB團(tuán)隊(duì)

憑借出色的解決方案和技術(shù)優(yōu)勢

在此次算法競賽中斬獲了

自然場景文字檢測挑戰(zhàn)賽亞軍

訊飛開發(fā)者大賽亞軍.jpg

攻克自然場景文字檢測難題

▎自然場景文字檢測主要存在3大難點(diǎn)

第一是文本自身的多樣性，自然場景中文字具有多樣的字體、顏色、長寬比、大小、形狀和藝術(shù)風(fēng)格；

第二是自然場景圖片的背景十分復(fù)雜，且現(xiàn)實(shí)生活中存在一些結(jié)構(gòu)與文本類似的對(duì)象，比如說窗戶，磚瓦，柵欄，草地等等；

第三是圖片容易受成像環(huán)境影響，測試圖片自身可能存在不均勻光照、模糊、低分辨率等情況。

▎剛開始采用語義分割方案，效果并不理想

細(xì)心一點(diǎn)的人一定會(huì)發(fā)現(xiàn)在自然場景中文字的形狀是任意的，使用分割的方法就不需要考慮文字的形狀和尺度，因此團(tuán)隊(duì)首先采用了PSENet作為基線，并在此基礎(chǔ)上進(jìn)行改進(jìn)。

實(shí)驗(yàn)發(fā)現(xiàn)，對(duì)于密集的豎直文本，則會(huì)出現(xiàn)大量誤檢（豎直方向的文本行被檢測成多段，或者被檢測成水平方向），如下圖所示：

微信截圖_20201106103904.jpg

由于缺乏實(shí)例級(jí)別的監(jiān)督信息，雖然文本區(qū)域被準(zhǔn)確地得到了，但是正確的實(shí)例很少。為了緩解這個(gè)問題，團(tuán)隊(duì)設(shè)計(jì)了文本實(shí)例嵌入模塊來學(xué)習(xí)文本實(shí)例的特征。該模塊通過增大不同文本實(shí)例間的特征距離以及縮小同一文本實(shí)例間像素的特征距離進(jìn)行學(xué)習(xí)。在后處理中，使用基于度量的聚類算法將特征距離近的文本候選區(qū)域合并。

最終算法性能大概提升了2%，但總體效果并不理想。

▎通過調(diào)研和實(shí)驗(yàn)發(fā)現(xiàn)，實(shí)例分割方案的基線遠(yuǎn)高于語義分割

經(jīng)過調(diào)研之后，團(tuán)隊(duì)選擇了結(jié)構(gòu)更復(fù)雜但性能更好的二階段實(shí)例分割模型作為基線繼續(xù)改進(jìn)。其中性能最高的單模型為HTC + Mask-iou Head，原始HTC模型只有box的置信度，無法用來評(píng)估m(xù)ask分割的好壞，Mask-iou的分?jǐn)?shù)在后處理中可以用來過濾掉置信度不高的檢測結(jié)果。

模型框架示意圖

自然場景文字的形狀是任意的，團(tuán)隊(duì)采用了可形變卷積網(wǎng)絡(luò)（DCN）來克服幾何形狀的變化。在多GPU訓(xùn)練中，使用了SyncBN避免batchsize對(duì)BN層造成影響。同時(shí)針對(duì)困難樣本容易造成誤檢的情況，使用了難負(fù)樣本挖掘（OHEM）技術(shù)。

圖片中文字的尺度變化極大，團(tuán)隊(duì)采用了多尺度訓(xùn)練/測試進(jìn)一步提高算法性能。

模型的輸出是一幅由0/1組成的二值圖，為了使網(wǎng)絡(luò)模型的輸出更符合預(yù)期，團(tuán)隊(duì)設(shè)計(jì)了一系列的后處理方法。若分割mask進(jìn)行聯(lián)通區(qū)域分析后由多個(gè)區(qū)域組成，則取面積最大的區(qū)域；若分割mask為非法多邊形，比如有孔洞的圓環(huán)，則舍棄內(nèi)徑，取外徑輪廓作為結(jié)果。

在復(fù)賽的最后階段，團(tuán)隊(duì)采用多模型Ensemble策略，使用Polygon-NMS算法融合多個(gè)模型的結(jié)果，最終取得91.77%的F-score。

華付信息AILAB參賽成員

左柯南海，右高攀

兩人均為華付AI算法研究院研究員

總體而言，自然場景文本檢測與識(shí)別都是比較難的任務(wù)，目前還沒有達(dá)到商用水平。近些年，學(xué)術(shù)界主要關(guān)注于如何檢測和識(shí)別任意形狀的文本，提高模型的魯棒性。在未來，anchor-free的檢測器以及檢測識(shí)別一步到位的端到端模型可能是一種趨勢。

此次取得的競賽成果充分體現(xiàn)了華付信息AI開發(fā)團(tuán)隊(duì)始終聚焦于人工智能技術(shù)的實(shí)踐創(chuàng)新，每一個(gè)方案背后都凝結(jié)了開發(fā)團(tuán)隊(duì)對(duì)技術(shù)的日夜打磨，從技術(shù)實(shí)現(xiàn)到方案落地，所有細(xì)節(jié)都經(jīng)過了層層推敲。

助力客戶實(shí)現(xiàn)智能驅(qū)動(dòng)持續(xù)創(chuàng)造最大價(jià)值永遠(yuǎn)是每一個(gè)華付人肩上的使命！