目前,車載用戶對智能車載的接受程度已是越來越高,而人機交互技術無疑能讓車載更加智能。來自相關調研機構的數據顯示,在消費者最感興趣、最實用的智能車載功能里面,語音交互已經排到了第二位,僅次于被盜車輛定位之后。另外,在一些車載設備里,包括智能車機、智能后視鏡、行車記錄儀、HUB和車載音箱等產品里,人機語音交互已無處不在。
“實際上,在智能車載系統1.0到3.0的迭代更新過程中,人機語音交互的作用和重要性已經越來越得到車主的認可。”思必馳信息科技有限公司的副總裁雷雄國認為,在車載領域,人機語音交互已成為車載設備的標配。
語音交互需攻克三大難點
不過,值得注意的是,車載語音在應用的過程中尚有一些難點需要去攻克。
雷雄國指出,首先是駕車環境下的噪音干擾。在駕車環境里,人與車載硬件的距離在0.3-1m以內。在近場距離里,存在各種噪音干擾、聲音反射和混合,加大了機器對自然人聲的辨識難度。“能夠在車載的環境下,把噪聲問題解決掉是人機交互第一步的基礎。解決這個問題的方向包括:在出現錯誤時,允許糾正打斷;對一些車載噪聲以及環境噪聲的抑制自適應;車設備在播放音樂或聲音的時候,能夠隨時打斷它等。”他說。其次是智能交互。實際上,在交互的過程中,很多的語音控制依然要結合手動操作,這給用戶的體驗非常不好。“全自然語言交互、完全解放雙手,是用戶的核心訴求,也是車載生態蓬勃的根本。” 雷雄國稱,這其實更多的包括人工智能的核心技術引進,包括跟車內業務的整合,使得車內的人機語音交互能達到更好的用戶體驗,這里面就包括對于語音的理解,以及人機多人的交互對話,基于任務式的深度的交互理解。三是更貼合用戶需求的產品設計。這包括ID設計;麥克、喇叭等硬件結構布局;硬件的問題只會通過軟件體驗的不足來體現;用戶體驗邏輯;語音交互與后端服務的結合,進行系統優化。“其實技術的發展達到一定階段后,需要上下游合作伙伴一起來針對車聯網產品進行多方位、多層次的結合與設計。”他舉例稱,在車載語音交互里面比較重要的一塊是回聲消除,包括喚醒打斷,這實際上需要考慮麥克風與喇叭的一些結構設計,產品也需要在這一塊做些配合。再比如,語音技術怎樣與業務結合,怎樣與導航結合,怎樣把第三方的音樂資源對接得更加地緊密、無縫,這里面也需要投入大量的產品設計以及開發,才能把用戶體驗做到極致。“語音交互只是手段,不是目的。交互的目的,是為了讓機器更好地完成任務。因此,后端的第三方服務顯得更為重要。”雷雄國稱,在車載語音交互技術上,思必馳與上下游合作伙伴進行了整合,把導航、電臺、個人社交、周邊搜索、音樂等與車主相關的第三方服務整合在一起。他直言,打造一個在車的環境下能夠實現全程真正解放雙手的交互模式,這是非常重要的。
多模態交互是發展方向
“從交互的角度來看,語音僅僅是占人機交互其中的一個環節,在接下來的車載智能化的過程中,我們希望看到更多交互技術與語音結合在一塊的,包括體感、手勢、圖象等一系列的人工智能的技術能夠迅速進入到車內,即多模態交互。”雷雄國如是說。思必馳是國內一家專注于智能硬件領域的語音公司,主要面向智能硬件三個垂直領域:智能車載、智能家居和智能機器人,提供自然語言交互解決方案。其中,車載在思必馳整體的業務中所占比重最大 ,其次是家居。思必馳市場總監龍夢竹在接受國際電子商情采訪時表示,思必馳在智能車載領域側重于后裝市場,這部分的市場份額大概占40%的比例。從具體的應用市場來看,在智能后視鏡市場估計占60%左右的市場份額。龍夢竹還透露,在車載前裝市場,思必馳目前已進入前裝車廠的測試階段,合作的互聯網汽車包括小鵬、智車優行等。
目前,思必馳能提供的語音技術包括語音識別、語音合成、語音識別++、語義理解和智能對話等。雷雄國稱,當前語義理解和智能對話已慢慢在研究使用階段,未來多模態的交互是很重要的一個方向,如語音與手勢、圖象識別等第三方的交互融合。另外一個方向就是與核心技術往云端移植,因為現在大部分的技術在云端,IoT發展起來之后,很多端上面會有云交互的需求,因此整個核心技術往端上移植也是一個大的方向。而人工智能是最重要的,人工智能與大數據融合,對大數據進行分析,這也是未來人工智能與語音的發展方向。
雷雄國透露,思必馳的研發方向與核心就在于人工智能。在多模態交互方面,思必馳也在與第三方合作推動。“我們做過手勢識別、圖象識別、虹膜識別、體感識別等與語音技術結合的多模態交互。”雷雄國稱,未來一定是從單一的輸入輸出互動形式向多模態交互發展,從被動服務向主動式服務及智能服務方向發展。