“(計算機)從2D到3D世界,是1995年之后最大的消費電子技術轉折點,這將徹底改變人們的計算體驗。”

從人們的角度來看,這個世界永遠在變化。當我們四處移動時,我們的目光也游走在整個環境中,豐富動態的場景信息不停地被傳送到我們的大腦里。我們可以理解這些不斷改變的信號,并以此生成對這個世界的根本性了解,從而和這個世界進行無縫交互。在過去三十年的計算機視覺領域中,有相當龐大的工作被投入到了這一塊,嘗試通過顏色和深度攝像頭來模擬人類的感知能力??梢哉f,計算機視覺一直是人工智能領域里最活躍的部分,指紋識別、掌紋識別、人臉識別都屬于其應用,而深度攝像頭就是計算機的眼睛。

深度攝像頭技術解析

那么究竟什么是深度攝像頭?消費者最熟悉的當屬微軟開發的Kinect系列,Leap Motion的體感設備,三星智能電視的手勢遙控功能等產品,這些均是深度攝像頭的

傳統體感類應用。實現深度探測的主流技術目前有三類: 1:(單目)結構光技術路線 代表公司:PrimeSense / 代表產品:Kinect I代 主要優勢:識別距離遠 / 主要問題:硬件難度和成本稍高 陣營公司:Apple(PrimeSense)、Microsoft、Intel、Google, etc. 主流評價:目前最主流的機器視覺工程化實現方法

2:雙目可見光(可配合紅外補光) 代表公司:LeapMotion / 代表產品:LeapMotion 主要優勢:高精度 / 主要問題:檢測范圍太?。ú蛔?米),遠距離檢測問題很多 陣營公司:LeapMotion 主流評價:應用場景太少

3:飛行時間法(ToF) 代表公司:Microsoft / 代表產品:Kinect II代 主要優勢:體感應用好 / 主要問題:傳感器供應受限、體積和功耗大、像素低 陣營公司:Microsoft、SoftKinetic(剛被SONY收購) 主流評價:除微軟在體感游戲之外民用應用不多

以結構光技術為例,其原理如圖。20160512-RB-1光源向檢測空間內投射經過編碼的激光光斑陣列,對空間進行標定并輔助計算三維空間位置。它是整合了衍射光學、圖像處理、計算視覺算法和處理器計算平臺的跨界組合工程,非標準的光學器件需要設計定制。其關鍵技術包括兩個部分:投射光學系統、“結構光”pattern編碼和衍射光學系統設計;以及圖像處理和視覺計算算法。

該技術的代表公司是PrimeSense,它創立于 2005 年,于 2006 年研發出 3D 傳感器,在當年的 E3 大展上與微軟建立了聯系,并催化出代號為 Project Natal 的神秘項目。等到 2009 年 E3 大展時,微軟發布了內置 PrimeSense 3D 傳感器的 Kinect,成功掀起了“體感游戲”大潮。PrimeSense的原理,是使用3D光學感測技術,使用紅外線系統來繪制場景的網格。通過傳感器讀取網格中的點,并結合來自CMOS傳感器的圖像信息,繪制出包含了深度信息的3D地圖。這種方法被稱為“RGB-D”,它由傳統的紅色,綠色和藍色的圖像信息加上“深度”信息構成。其核心為Light Coding技術,是利用連續光(近紅外線)對測量空間進行編碼,經感應器讀取編碼的光線,交由芯片運算進行解碼后,產生成一張具有深度的圖像。Light Coding技術的關鍵是激光散斑,當激光照射到粗糙物體、或是穿透毛玻璃后,會形成隨機的反射斑點,稱之為散斑。散斑具有高度隨機性,也會隨著距離而變換圖案,空間中任何兩處的散斑都會是不同的圖案,等于是將整個空間加上了標記,所以任何物體進入該空間、以及移動時,都可確切紀錄物體的位置。

深度攝像頭供應格局

隨著深度攝像頭技術的不斷發展,更多機器視覺應用正在不斷涌現,例如行為捕捉和分析用于智能安防,環境感知(SLAM)用于視覺導航,消費類 3D建模等,同時深度攝像頭也是近年來最火爆的AR/VR設備的核心模塊之一。高級行為分析功能必需基于三維深度信息實現,此前市場上只有基于PrimeSense方案的體感游戲攝像頭可用,在2013年PrimeSense被Apple 收購,其對外供貨和技術授權在15年中止,業界急需要合適的替代產品。例如有一款采用PrimeSense開發板設計的iPad外置深度攝像頭產品,在Kickstarter上募集了約130萬美金,同樣因為Apple收購PrimeSense的原因,類似項目全部陷入困境。在AR/VR設備應用中,遠距離深度攝像頭用于環境感知和建模;近距離深度攝像頭用于手勢識別。預計將來 99% 的 AR 設備和 50% 以上的 VR 設備將配備深度攝像頭,而這兩類應用的崛起,也將大力推動深度攝像頭市場的增長。

PrimeSense的產品有深度攝像頭模塊,有完善的SDK(其中最著名的是開源的Open NI應用程序接口),更有其定制的DSP+硬件加速器芯片以及強大的專利池。在PrimeSense被Apple 收購之后,市場上類似方案供應幾乎成為空白,隨后谷歌、英特爾、臉書旗下Oculus、索尼和三星等企業都相繼在這一領域進行了投入,收購動作頻繁。谷歌Project Tango,利用深度攝像頭進行機器人室內導航;英特爾演示RealSense深度攝像頭對無人機進行視覺導航等等……。可以說,深度攝像頭是所有需要視覺傳感器的機器,包括機器人、無人機、工業設備的必需模塊。據IHS預計,到2019年手勢感應傳感器全球市場規模將從2015年的23億達到95億美金,年復合增長率達到42.6%。

下圖是該產業領導廠商主要技術發展及深度攝像頭平臺情況。20160512-RB-2上圖顯示了科技行業巨頭在深度攝像頭領域的布局,他們通過收購構筑了各自的技術護城河。其中,微軟Kinect一代的技術方案供應商,機器視覺民用化的先驅PrimeSense被蘋果收購可以視為一個轉折點,收購以后,其對外授權和供貨會在 2015 年終止,所以那些使用了PrimeSense技術的廠商們不得不尋找替代方案,再加上AR/VR設備的興起,讓國內一些初創企業盯住了這一市場,圖漾科技即是其中之一。

圖漾:業界最獨特的技術路線

費浙平曾經是處理器巨頭ARM在中國大陸的第一位員工,在全球頂尖的CPU和GPU公司工作十多年,于2013年開始啟動深度攝像頭的技術研發,團隊的技術合伙人來自于國內機器視覺領域的著名團隊Click研發小組,在光學、硬件和算法上非常有經驗和積累。在強大的技術團隊背景下,圖漾立志成為機器視覺領域的世界級核心技術平臺。

2015年初,圖漾科技獲得Pre-angel 400萬天使輪融資,目前已經完成了所有核心技術的研發和器件定制,產品已經開始在諸多行業客戶中使用。區別于主流的單目結構光技術方案,他們創造性地采用了主動雙目的技術路線,主動雙目(Active Stereo)技術的不斷演進和優化,能夠把深度攝像頭性能推向極致,同時徹底規避了與市場先行者的專利風險。主動雙目方案可以看成是純雙目方案和單目結構光兩種方案的融合,由于這兩種方式都可以獲得深度信息,在系統魯棒性方面會大大超過現有方案。在某些環境下(比如室外)由于環境光的干擾,該方案可以直接轉變成純雙目方案,繼續獲得深度信息而不會直接失效,也可以真正杜絕不同深度攝像頭之間空間散斑的互相干擾(這個問題在機器視覺社區非常常見,但單目結構光方案由于原理問題,無法避免)。同時雙目結構光方案的光學標定方式不同于單目結構光,激光發射器(產品壽命最大瓶頸)可以直接替換,由此帶來攝像頭模塊的工作時間可以達到商用和工業領域的高可靠性和高可用性需求,還能帶來維護成本的大幅度降低(不需要整個模塊替換),這對行業用戶的重要性不言而喻。

費浙平表示,圖漾目前已完成1500萬人民幣的pre-A輪融資,本輪融資由專投機器人領域的兩個投資機構參投,資金將主要用于產品商業化布局和硬件設備落地,普及更多的客戶。“深度攝像頭能夠獲取世界的三維信息,由此給VR/AR、動作捕捉、三維掃描與打印、室內導航與定位等應用提供了基礎的技術支持。有了深度攝像頭,你的設備將讀懂這個世界所發生的一切,更加智能。”他表示。

根據他的規劃,圖漾的第一個產品型態是深度攝像頭(傳感器),可利用視覺計算原理,計算出拍攝場景內物體的3維空間位置信息,在此基礎上可以實現環境感知、體感、建模、行為識別等各種應用。在第二階段,跟行業合作伙伴配合,為最終客戶提供基于深度信息的視覺應用開發支持,比如3D建模和SLAM等,構建起深度技術應用的技術平臺。圖漾的硬件技術發展路線和方向有兩個,一是提供適合移動設備用的小型化低功耗深度攝像頭,二是遠距離和超高分辨率的高性能產品。

在競爭格局上,費浙平表示,被Apple收購后的PrimeSense基本上會是自用,微軟綁定了Win10,也在明顯趨于封閉,而且它不會進入硬件模塊市場;英特爾的產品規格非常固定,且需綁定 x86 處理器,應用場景比較受限;谷歌志不在成為硬件供應商,甚至有朝一日很可能會徹底開源其Project Tango的源代碼,幫助促進深度攝像頭的大規模普及應用。以色列有一個技術極好的創業公司群體,但是這類企業的目標在于被巨頭收購,難以成為可靠的合作伙伴。事實上,在過去的12個月里面,市面上大多數的深度技術公司都已經被大公司收入旗下了。“這一領域的特點是技術門檻極高,技術發展整體上尚屬于早期,整個行業都在技術起飛過程當中。類似于高仿Kinect硬件加軟件破解的方式不是我們的興趣所在,我們的目標是成為世界頂尖的深度技術公司,在這個技術點上做出創造性的領先技術和產品,

支持計算視覺應用從行業擴展到我們每個人的工作和生活當中。”在技術和產品山寨橫行的中國市場,有這樣愿意挑戰業界技術巔峰的企業實屬罕見。

費浙平解釋深度攝像頭的幾個關鍵技術規格,一個是檢測范圍,看最大檢測距離;第二是檢測精度,看誤差多少;第三是檢測角度,看鏡頭的視角多大;第四是檢測速度,每秒能刷新多少次。他表示目前已有小批量試用模組提供給早期客戶評估,該深度攝像頭采用雙目立體視覺,配以紅外結構光輔助投影,能夠獲得比傳統

立體視覺更多的景深細節。板載深度數據專用處理器,所有圖像處理均在設備端高速完成,直接輸出深度數據供客戶調用處理。這一型號采用裸板模組設計,適合企業客戶直接用于自家產品的安裝使用,適用于機器人導航避障,及低精度的姿態識別等領域應用,支持Linux、windows操作系統。20160512-RB-3首款產品模組規格描述:

  1. 尺寸88mmx38mmx35mm,基線長度55mm。
  2. 輸出深度分辨率560x460@10fps,micro USB 2.0。
  3. 設備功耗為3.5w。
  4. 檢測距離1-5m,水平檢測范圍58°。
  5. 供電方式:雙USB供電。
  6. 提供模組安裝定位孔。

“目前我們的深度攝像頭模組內置專用圖像處理芯片,能夠高速實時檢測物體的三維信息,無需占用任何設備外計算資源。通過巧妙的光學設計,保證深度傳感器的識別范圍有了更大的延伸,實現最遠可達到10米內的目標檢測,并實現雙圖像捕獲激光投射,能夠對物體三維信息實時測量,檢測精度達到毫米級,” 費浙平指出,“而且即插即用,無需復雜的驅動,可直接輸出深度信息流,支持不同的平臺。此外我們對所有開發者免費開放豐富的開發包,可以讓開發者充分發揮想象,將深度信息的利用發揮到極致。同時也為企業客戶提供交鑰匙方案,攝像頭模組可以輕松外置或嵌入各型號電子產品,幫助客戶提升產品的國際競爭力。” 值得注意的是,目前的模組導出的數據是原始數據,需要客戶自己去進一步分析處理,因此圖漾現階段選擇的都是具備一定技術實力的客戶。

視覺處理器:新的藍海

費浙平指出,目前的處理器架構不足以支撐現有的計算機視覺的發展。未來關于深度識別方面,也需要專門優化過的處理器來處理相關的應用,才能做到又快又好。近期由于視覺處理器創業公司CogniVue被飛思卡爾收購,該領域的創業機會也被業界看好,谷歌project Tango中所使用的視覺處理器供應商Movidius已經成為當紅炸子雞。“深度攝像頭技術發展仍處于早期階段,還有很長的路要走,同時,這也意味著有很多機會等著我們。”處理器行業出身的費浙平在說到視覺處理器話題時,仍舊兩眼放光,讓人不禁浮想聯翩……。