色情主播的天敵:AI大牛爲你解密AI鑑黃的那些事

目前多家人工智能公司已開始佈局鑑黃業務,阿里巴巴和騰訊分別擁有阿里綠網萬象優圖大鑒系統。而在創業公司方面,較爲知名的有圖普科技、飛搜科技、深圖智服等公司。

近期在線直播火爆,因此有些公司開始切入直播鑑黃這個細分領域。爲此,雷鋒網(公衆號:雷鋒網)就以下問題請教了來自專攻色情識別的圖普科技和在計算機視覺公司雲從科技的技術專家進行解讀。

直播(如花椒映客)、在線視頻(如優酷、愛奇藝)、圖片鑑黃的區別在哪兒?直播的鑑黃難度是否最大?要解決哪些技術問題?

雲從科技高級算法工程師周翔

其實這三項(直播,在線視頻,圖片鑑黃)差異不大,三者都可歸類爲實時視頻處理和海量圖片處理。

視頻/直播是動態的,圖片是靜態的。鑑別視頻和直播時,可以把動態內容解碼變成圖片幀來判斷,這樣就與靜態圖片鑑別沒差了。

至於技術問題,其實鑑黃在算法層面難度並不高,利用深度學習算法訓練後,就能達到不錯的鑑黃效果

圖普科技工程師則在計算能力和算法要求上做了一些小補充:

目前主要是通過間隔截圖、關鍵幀截圖之類的對直播和在線視頻進行識別處理,所以最終也是對單張圖片的處理。

但是,由於直播的實時性,所以直播相對於另外在線視頻和圖片,對於機器的圖片識別的處理速度要求較高,這主要是對於計算能力和算法的要求加大。

至於是屏蔽、刪除或者禁播等方面的處理,主要是看業務方,可以選擇由機器自動處理或者人工介入。

既然算法門檻不是很高,爲什麼一些CV公司不增一項視頻/直播鑑黃業務撈點油水

雲從科技高級算法工程師周翔:

一方面是他們不太願意做。

另一方面雖然CV公司可能有現成的鑑黃算法訓練系統平臺,但是他們缺數據。鑑黃需要大量的數據來進行訓練。黃色圖片和視頻幀最好達到十萬的量級深度學習才能跑起來。至於如何收集這些數據,一般情況下很多視頻直播都已經有現成的,包括鑑黃中心等都有非常大量的此類圖片。

剛提到大批量數據用深度學習來訓練,而訓練小批量數據一般採用傳統特徵分析分類器算法來做,但效果和精度沒有目前的深度學習高。

直播鑑黃是不是要識別裡面的每一幀圖像,這樣計算量豈不是很大?

圖普科技工程師:

這與算法能力關係不大,在算法和工程能力都已經達到最優的情況下,這個是屬於企業成本預算問題。

直播是視頻流,企業如果對直播的每一幀的圖片都進行識別,這是非常巨大的數據量,企業的運營成本自然較高。所以我們一般建議企業按自己的需求,對於視頻先進行抽幀處理,例如一分鐘視頻的視頻可以按照時間段抽6-15幀左右的圖片進行識別處理之類的來控制成本。

鑑黃存在哪些難點?

雲從科技高級算法工程師周翔:

實時視頻影像分析大致通過三大方面進行鑑定:

是否有人物(有:色情概率增加)

人形輪廓膚色比例(大:色情概率增加)

姿態分析(性行爲姿勢:色情概率增加)

人類對於色情的定義較爲廣泛,多種情況下對於色情的鑑定標準也會有不同。在這基礎上其實對於黃色和非黃色圖片的區分,有時候不是特別明顯,很難判斷。舉個通俗的例子,赤裸上身的男子照片(屬於膚色比例大),這種圖片本質上屬於非黃色圖片,但很多時候,因爲訓練數據裡有類似圖片被判定爲黃色圖像,存在判錯的問題。因此需要利用大量樣本去不斷地訓練它,讓機器不斷糾正,學習更多特徵避免這種“低級錯誤”。

這也正是上面提到部分CV公司不涉入鑑黃業務的原因,因爲一直需要大量樣本去不斷訓練、糾正,工程量挺大。

鑑黃的數據訓練過程是什麼樣的?

圖普科技工程師:

通俗講,可以把深度學習理解爲一個空白的大腦,海量數據就是灌輸進來的經驗。當我們把大量的色情、性感、正常的樣本的屬性告訴深度學習的引擎, 讓引擎不斷學習,然後把他們做對的進行獎勵,做錯的就懲罰,當然這些獎勵和懲罰都是數學上的,最後空白的腦袋就會學成了一種連接的模型,這種模型就是爲了鑑別色情與非色情而生的。

綜合上述內容,AI科技評論把人工智能鑑黃總結爲以下幾點:

實時視頻影像分析大致要從三個方向鑑定:是否有人物、人形輪廓的膚色比例、姿態分析。

直播/視頻和圖片鑑黃區別不大,把動態視頻解碼爲圖片幀就與圖片沒差了。視頻鑑黃不會對每一幀進行識別,一般是從固定時間段裡抽取幾幀進行識別。

黃色的圖片和視頻幀最好達到十萬的量級,深度學習才能跑起來。而訓練小批量數據一般採用傳統的特徵分析加分類器算法來做,但效果和精度不如深度學習。

屏蔽、刪除或者禁播等方面的處理,主要是看業務方,可以選擇由機器自動處理或者人工介入。

最後,鑑黃的棘手之處主要是難以掌握色情和非色情的臨界點,機器容易把正常圖片(如男生上身半裸圖片)誤判爲色情圖片,因此需要大量的數據不斷去訓練和糾正,是個慢熬的苦差事,這也是部分CV公司不涉入鑑黃業務的一大原因。