本發(fā)明涉及一種基于編解碼網(wǎng)絡(luò)的圖像?文本多模態(tài)融合方法,屬于計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理、模式識(shí)別技術(shù)領(lǐng)域。該方法包括如下步驟:S1:在現(xiàn)有目標(biāo)檢測(cè)數(shù)據(jù)集的基礎(chǔ)上對(duì)其進(jìn)行手動(dòng)標(biāo)記生成文本信息,構(gòu)建新的圖像?文本數(shù)據(jù)集,并將數(shù)據(jù)集劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集;S2:選擇適合的優(yōu)化學(xué)習(xí)方法,設(shè)置相關(guān)超參數(shù),將訓(xùn)練集和驗(yàn)證集通過(guò)編解碼網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練;S3:訓(xùn)練結(jié)束后,在測(cè)試集中任選一張圖片,輸入編解碼網(wǎng)絡(luò)模型,加載訓(xùn)練好的模型權(quán)重,最終檢測(cè)出所對(duì)應(yīng)的目標(biāo)結(jié)果。本發(fā)明采用圖像?文本融合處理的方法,利用同一個(gè)事物的兩種不同類型的數(shù)據(jù)進(jìn)行融合處理,能夠使網(wǎng)絡(luò)訓(xùn)練時(shí)精確度更高,進(jìn)而識(shí)別出相關(guān)所需讓目標(biāo)。
聲明:
“基于編解碼網(wǎng)絡(luò)的圖像-文本多模態(tài)融合方法” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請(qǐng)聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)