東北大學信息科學與工程學院魏穎教授團隊在人物交互檢測研究中取得重要進展,研究成果以“FGAHOI: Fine-Grained Anchors for Human-Object Interaction Detection”為題發(fā)表在人工智能領域頂級學術期刊《IEEE Transactions on Pattern Analysis and Machine Intelligence》(IEEE TPAMI)上。論文的第一作者為馬帥磊博士,通訊作者為魏穎教授。
(論文鏈接:https://doi.org/10.1109/TPAMI.2023.3331738)
IEEE TPAMI在中國計算機學會認定的人工智能領域四個A類期刊中排名第一,是計算機視覺及模式識別領域最頂尖的期刊,五年平均影響因子26.7。根據(jù)當前流行的Google Scholar Citation統(tǒng)計,IEEE TPAMI在所有計算機工程、電子工程及人工智能相關期刊榜單上以165分的h5-index排在第1位,主要收錄人工智能、模式識別、計算機視覺及機器學習領域的原創(chuàng)性科研成果。TPAMI篩選極其嚴格,每年錄用量僅200篇左右。IEEE TPAMI是人工智能、模式識別、計算機視覺及機器學習領域最重要的學術期刊之一,也是目前信息領域中影響最大、水平最高的期刊。
人物交互(HOI)檢測是計算機視覺領域的一個重要問題,需要定位每一個人物對并識別交互關系。與單個物體實例相比,HOI 實例在空間、尺度和任務方面的跨度更大,因此其檢測更容易受到噪聲背景的影響。為了減輕噪聲背景對 HOI 檢測的干擾,該文提出了一種新穎的端到端的框架(FGAHOI),利用輸入圖像信息來生成細粒度錨點來指導 HOI 實例的檢測,改進了從背景信息復雜的圖像中提取關鍵特征,并將提取的特征與查詢嵌入進行語義統(tǒng)一的方法。為促進人工智能領域的發(fā)展,論文的算法代碼和數(shù)據(jù)均已開源。
該文提出了一種新穎的基于Transformer的人物交互檢測器(FGAHOI),利用輸入特征生成細粒度錨點,以緩解人物交互實例的檢測受噪聲背景的影響。提出了一種新穎的訓練策略,即按順序訓練模型的每個組件,以明確每個階段的訓練方向,從而最大限度地節(jié)省訓練成本。針對檢測 HOI 實例的兩個挑戰(zhàn)(人物對的不均勻分布區(qū)域和人物對的遠距離視覺建模),提出了兩個新指標和一個新數(shù)據(jù)集,即 HOI-SDC。我們在 HICO-DET、HOI-SDC 和 V-COCO 這三個基準數(shù)據(jù)集上進行了大量實驗,證明了所提出的 FGAHOI 的有效性。
魏穎教授長期致力于圖像處理與計算機視覺、醫(yī)學影像計算與分析、視頻圖像分析與理解、機器學習與深度學習領域研究,作為項目負責人主持/完成國家自然科學基金項目、省部級攻關項目、企事業(yè)合作攻關項目等二十余項,在國內(nèi)外重要學術期刊/國際會議發(fā)表論文七十余篇,獲得遼寧省自然學術成果一等獎/二等獎、東北大學“江河獎教金”、東北大學學生科技競賽活動優(yōu)秀指導教師、東北大學“研究生心目中的好導師”等榮譽/獎勵二十余項,兼任遼寧省人工智能學會副理事長、中國人工智能學會智慧醫(yī)療專委會常務委員。(轉自東北大學信息學院公眾號)