Facebook欲借AR在現實世界開闢一個新的空間

Artist Heather Day's augmented-reality art installation on Facebook's campus" style="box-sizing: border-box; border-width: 0px; border-style: initial; border-; vertical-align: middle; max-width: 50%; display: block; margin: 0px auto;" />

藝術家Heather Day在Facebook園區的增強現實藝術作品

本站科技訊?9月22日消息,《大西洋月刊》(the Atlantic)撰文稱,Facebook新的“AI Camera”團隊想要在現實世界中開闢出一個新的空間。在圍繞手機攝像頭的爭奪戰中,該團隊將會整合過去十年最重要的一些技術進展,如神經網絡機器人、相機系統社交網絡數據。在不遠的未來,你的攝像頭將會理解它所在的位置,識別取景框內的人,無縫地強化你所看到的現實。

以下是文章主要內容:

在Instagram故事功能中給閃閃發光的生日蛋糕蠟燭拍個視頻,然後點擊貼紙按鈕。在列表最上方,你就會看到蛋糕。

這是小玩意,這種簡單的伎倆並不令人驚歎,也沒有什麼神奇之處。但它是某種變革性的東西的開端。智能手機已經改變了大多數人拍照的方式。硅谷的最新追求是重新想象攝像頭,將近年來人工智能的進步應用於讓你的手機變得能夠輕鬆理解現實世界,就像谷歌理解整個網絡那樣。

坐擁20億用戶的Facebook已經將負責Instagram、Facebook和Messenger的相機軟件編程的數個團隊重組成一個名爲“AI Camera”的新部門。該部門去年成立的時候,只有一個成員。如今,它已經擴張到60人。當中包括曾在微軟從事Photosynth工作的裡克·(Rick Szeliski)和邁克爾·科恩(Michael Cohen)。AI Camera團隊還能夠利用在公司其它部門的頂級神經網絡研究者的專業知識,比如大名鼎鼎的雅恩·樂昆(Yann LeCu)和賈揚清。

AI Camera團隊負責賦予這些應用內的攝像頭理解你讓它們對準的東西的能力。在不遠的未來,你的攝像頭將會理解它所在的位置,識別取景框內的人,無縫地強化你所看到的現實。

目前,該團隊都是推出小的成果,比如那個生日蛋糕貼紙伎倆。但那只是一個想要改變你使用手機攝像頭方式的開發項目的開始。

AI Camera結合利用過去數十年衆多最重要的技術進步:神經網絡、機器人、相機系統和社交網絡數據。這些底層技術正在共同構成智能手機的照片拍攝和顯示功能。

也許這聽上去很荒謬。但人類捕捉、理解和分享現實世界的照片的慾望已被證明幾乎無法滿足,正因爲此,Facebook、蘋果、谷歌、三星、Snapchat、微軟等大型科技公司悉數進軍該領域。

Facebook的項目也讓人聯想到了其它科技巨頭的動作。閱後即焚通訊應用Snapchat母公司Snap自稱是相機公司,其在“鏡頭”上的應用可謂Pokémon Go以外增強現實的最佳詮釋。在谷歌今年5月的開發者大會上,桑達爾·皮查伊(Sundar Pichai)展示了Google Lens(谷歌鏡頭),該軟件能夠檢測攝像頭在對準什麼東西,還能夠利用這一信息提供其它的功能,如輸入密碼和識別花朵。

在Snap的刺激下,科技巨頭們紛紛開始拼合能夠通過智能手機這一完整的成像和顯示系統能夠完成的東西。手機攝像頭被使用的每一毫秒,所產生的數據都能夠被捕捉、處理、理解和回送給用戶查看。

空間化Facebook

“我們實質上是在探究我們需要哪些技術來打造令人驚歎的增強現實產品。”AI Camera團隊產品經理約翰·巴內特(John Barnett)指出。

他說,試想一下,在現實世界上疊加一個持久穩固的可分享社交層,一個逃出信息流的空間化Facebook。

“當初每一個人都爲只是疊加一層東西的Pokémon Go感到非常興奮。要是有1000層那樣的東西呢?”巴內特問道,“所有的這些信息層都會出現在情境空間裡,跟你關心的東西密切相關。”

這跟我們所熟知的那個Facebook全然不同。儘管它已經從桌面端轉向“移動端”,但它鮮少跟你握持手機所在的物理空間進行交互。

“在現有的Facebook結構中,我們給你呈現世界上正在發生的一切事情,通過摺疊空間來給予你時間。”巴內特說道,“而AI Camera則是要摺疊時間來給予你空間。”

也就是說,Facebook在同時處理兩種模式:動態消息(News Feed),實時向你展示你關心的東西;空間化的Facebook,告訴你這裡正在發生什麼。你可以觀察這種世界,也可以提供反饋。至少,你可以對你的世界這麼做。

增強現實的一個願景

在Facebook門洛帕克園區的其中一個樓層上,眺望南海灣的泥灘,你會看到一個平平無奇的角落。上面鋪設了管道。監控攝像頭在東向的牆壁上。透過肉眼,你看不出該面牆跟Facebook園區數百面其它的牆有什麼區別。

然而,掏出一部裝有Facebook正在開發的一款應用的手機,將它對準該面牆,你會看到一個漂亮的藝術作品。該作品主要由舊金山藝術家Heather Day創作而成。它在Facebook CEO馬克·扎克伯格(Mark Zuckerberg)在F8開發者大會發表主旨演講時曾短暫亮相。

管道下,鮮藍色,藍綠色,青綠色,各種色彩彙集在牆壁上……太酷了,它就是懸浮在空中

關閉該應用,再將它打開,再一次將手機對準那個角落,那個藝術品再一次出現。繞着它來回走,穿過它,Heather Day的畫作仍舊在那裡。要是全世界各地都成千上萬個像這樣的東西,會怎麼樣呢?然後旁邊是墨西哥捲餅的推薦信息,跑步和騎行記錄應用Strava的分段記錄項,你的朋友在鏡頭前擺拍……

這是增強現實的一個願景。增強現實是指將數字信息疊加在現實世界的圖像上面。在蘋果推出旨在讓開發者將AR引入應用的框架ARKit以後,AR近幾個月迎來了很多的發展動力。開發者們最近一直在展示那些AR應用,谷歌前不久也發佈了一套類似(儘管沒有獲得廣泛的讚譽)的工具:ARCore。

不管怎麼樣,AR對於智能手機來說是一項極其複雜的任務。阿爾瓦羅·科列特(Alvaro Collet)是來自卡內基梅隆大學的計算機視覺專業博士,從微軟加盟Facebook,加入AI Camera團隊。他站在我旁邊,看着那面牆。“這實際上是一個很有挑戰性的場景,因爲它非常平整。”科列特告訴我。

即時定位地圖構建

這種基本的任務讓人想到了機器人數十年來要做的事情。研究人員將其稱作SLAM(即時定位與地圖構建)。

SLAM的理論和實踐在過去30年裡形成,源自多位機器人研究者,比如SRI的蘭德爾·史密斯(Randall Smith)和彼得·奇斯曼(Peter Cheeseman)、悉尼大學的休·杜蘭特-懷特(Hugh Durrant-Whyte)、塞巴斯蒂安·特倫(Sebastian Thrun)、來自卡內基梅隆大學的科列特導師馬夏爾·赫伯特(Martial Hebert)。這些研究者大多數都研究真實的機器人,主要是裝有各類傳感器的自動化車輛。但隨着智能手機開始興起,研究人員意識到,他們的系統可能將能夠觸及數億人,而不是數十人。

SLAM的問題在於,你需要給機器人(或者手機)所在的世界構建地圖,但機器人(或者手機)和世界的位置都是不確定的。

“如果你知道已經是3D的世界的所有特徵,那擺正攝像頭的位置會很容易。相反,如果你有所有的攝像頭位置信息,那給世界構建3D地圖會很容易。”科列特說道,“SLAM的問題在於,開始展開工作的時候,你沒有3D地圖,你不知道攝像頭在哪裡。那是即時定位方面的工作。”

有很多的方法解決該存在於不同算法當中的問題。每一種方法都需要作出折衷。有的可提供很高的精準度,但計算方面成本高昂。有的可能沒那麼廣泛地考慮來自一個傳感器的圖像,但運行快速,不需要太多的計算工作。

開發挑戰

Facebook同時爲iOS和Android平臺開發產品,這給它帶來了不少的挑戰。當然,Facebook的優勢在於它無與倫比的規模:20億用戶,而且這一數字還在不斷增加。但要利用好這種規模,Facebook必須要讓AR同時適用於形形色色的手機,而不只是適用於像Pixel 2、三星Galaxy Note 8和iPhone X這樣的高端機型。那意味着他們實際上要部署多個算法來實施SLAM。在低端的手機上,運算會更加艱難,因此他們得提升運行速度。高端手機會有更好的表現,因爲它們有足夠強大的處理能力。

對於低端機型,AI Camera團隊必須要考慮各種隱藏的硬件問題。在手機內部,有個攝像頭,但還有個可用來了解手機運轉情況的慣性測量單元(IMU)。該單元包含陀螺儀和加速計。低端設備上的所有這些零部件都必須要進行校準。它們的時鐘必須要同步化。由於製造質量較低,每臺設備對比iPhone可能都會表現出不同程度的差異。

在所有的電子工作完成,手機知道它自己大概在哪個位置和場景的幾何結構以後,接着要解決的下一層技術是:深度神經網絡。該“神經”部分意味着,這類軟件需要“經過訓練”,而不是通過傳統規則來程序化。在獲得大量的標記數據後,神經網絡能夠根據它看到的東西標記新的數據。深度部分是指神經網絡的層數,這與數據集的功能複雜性相關。

在過去5年裡,這種機器學習系統改變了圖像識別等功能的處理方式。谷歌圖片讓你尋找名片或者山脈或者人的圖片的功能,就是藉助了深度神經網絡的威力。

不過,想象一下,下一步的進展:不只是識別藝術品,手機能夠識別存在於它已經構建的場景模型內的物體。那在過去一年裡才變得可行。

“這是我們第一次能夠在手機上同時運行SLAM和深度網絡。”科列特說道,“我們有兩個大型團隊:SLAM幾何團隊和深度網絡團隊。目標是,這兩樣東西發生融合。”

那是你實現Facebook所想象的那種增強現實的唯一方式。到那時候,他們將只需要讓人們去填充所有的那些空間信息層。

“我們很想要做到的一點是,也許一兩年後,讓日常用戶僅通過手機上的工具就能夠重現藝術家Heather Day那樣的場景。”科列特表示。

任何有Facebook賬號的人都可以創作媒體作品和將它固定在世界上的某個地方。未來將會有懸浮在空中的食品推薦、婚紗照和畫作,未來到處都將會看到藝術作品和墨西哥捲餅。

濫用問題

但從各個社交平臺的發展史來看,我們可以確定的一點是:人們將會用自己的方式來利用那些工具。他們將會發現全新的用途,無法預料的用途,以及濫用的方式。空間化Facebook將會帶來意想不到的後果

有的後果或許是可以預見的。現在就已經有空間化信息,只是不是以AI Camera想象或者通過Facebook運作的方式呈現出來。例如,餐館點評網站Yelp一直以來都備受流氓評論困擾。十年來,餐館一直都無法處理粉絲和黑子在它們的門口附上數字看板

另一個有警示意義的例子來自Pokémon Go。奧馬裡·艾其爾(Omari Akil)曾發表帖子描述他作爲黑人玩該遊戲的經歷。他更多的時間不是花在遊戲本身上面,而是在擔心其他人會否覺得他行爲可疑——並將他帶到警察局。“當我的大腦開始一邊在擔心在美國作爲黑人可能會遭遇的問題,一邊參與到Pokémon Go遊戲帶來的現實世界探索的時候,我只想到了一樣東西。”他寫道,“那就是,我繼續玩下去的話,我可能會死掉。”

美國的種族和性別歧視問題在互聯網上已經突出,在空間化的增強現實中它們恐怕將會被進一步放大。並不是每一個人都能夠同樣輕鬆地訪問同樣的地方。

2016年,Waze在巴西推出了一項犯罪高發地區提醒功能,幫助人們穿行“治安不好的街區”。微軟也曾因爲2012年的一項關於類似功能的專利陷入了麻煩當中,專利裡所說的功能被人稱作“避開貧民區”功能。

即便是在比較良性的例子裡,空間信息如果不適合疊加在某個現實空間上面,也會引發問題。

並不是說Facebook能夠或者應當解決流氓和美國反黑人方面所有的問題,以及將數字信息疊加到現實世界的所有複雜問題。但在開發增強現實產品的時候,他們可以想想這些問題。

AI Camera項目內部也面臨類似的難題。爲了讓系統兼容全球各地形形色色千奇百怪的手機,計算機視覺技術專家科列特描述了種種他們必須要做的工作,比如校準、算法、系統的故障耐受性。

除了實體部件的現狀以外,他們也應當應對好增強現實在倫理和行爲方面的問題。考慮系統的濫用和偏見需要花費更多的心思,但現在就考慮這些問題會讓該系統日後變得更加強大。

如果AI Camera團隊取得成功的話,那他們將會在陸地上面開闢出一個無邊無際的新空間。未決的問題在於,那會給這種新的數字層底下的地方帶來什麼影響。(樂邦)