富士通發表新AI技術實現世界第一高精度圖像識別

富士通研究所發表新的人工智慧（AI）技術，透過深度學習可從關節位置識別複雜的人類行爲，併成功實現了世界第一的高精度圖像識別。

這項行爲識別技術，透過深度學習來識別多個關節串聯的複雜動作，或獲取行爲中相鄰關節位置資訊。較過往未使用鄰近關節資訊的常規技術相比，獲得相當顯著的進步。例如開箱取出物品，手、肘部及肩關節隨着手臂彎曲和伸展，這樣多關節相互變化的複雜行爲也能獲得識別。

富士通研究所於日前1月10日至1月15日在線上舉行的第25屆國際模式識別會議（25th International Conference on Pattern Recognition，ICPR 2020）中揭幕這項新AI技術的細節。

2021年中，富士通研究所將追加此項新技術至「行爲分析技術Actlyzer」中，期待打造更高精確度且能快速應用的辨識系統。應用於檢查工廠的工作程序以及檢測公共環境中的危險行爲，可望大力提升社會安全性。

近年來AI技術的進步，已實現深度學習從視頻圖像識別人類行爲。

一般來說，利用AI進行人類行爲識別取決於各骨骼關節位置的時間變化，包括手、肘部及肩關節的識別特徵，然後將這些特徵連接到簡單的運動模式（例如站立或坐下）。常規技術下已能準確掌握每個關節的特性。再加上對完成訓練的AI模型，進一步提供連接相鄰關節的組合特徵，來實現複雜運動的高精度識別。

富士通針對圖形卷積神經網路（Graph Convolutional Networks，GCN）開發了一組新的AI模型，藉由採取透過以人體關節姿勢的結構爲節點作爲基礎，以鄰近關節（作爲節線）所構成的圖來執行圖結構的卷積運算。

透過關節的時間序列數據，預先訓練此模型可以優化與相鄰關節的連接強度（Weight）並可以獲取用於行爲識別的有效連接關係。

這項技術利用骨架數據對行爲識別領域的世界基準進行了評估。在實際數據中，與簡單行爲（如坐、立）相比，準確率和常規技術持平；然而，在諸如開箱或扔擲的複雜行爲辨識上準確率則大大地提升，與常規技術相比提高了7％以上，成功達到世界第一的識別精度。

富士通發表新AI技術 實現世界第一高精度圖像識別