人工智能,可以說是今年最熱的一個關鍵詞,并推動著很多產品和產業的創新。而提到人工智能,目前主要的還是語音識別和圖像識別,這兩點也一直是上游芯片原廠和方案商想要突破和創新的技術關卡。電子設計模塊
作為國內知名的音頻芯片廠商炬芯科技,不但于去年在音頻領域進入了小米、魅族等幾家大公司的供應鏈,現在也開始聚焦音頻AI領域,推出了一系列的智能語音產品和解決方案。12月15日,炬芯科技在深圳舉行了針對智能語音技術的專屬品牌活動:炬芯科技2017 TcehLife開發者交流大會。
單麥克風or麥克風陣列,語音交互該選用怎樣的方案?
本次的TechLife活動交流分享環節,炬芯特邀地平線語音前端處理技術負責人,南京大學聲科學與工程系教授,噪聲控制與通信聲學研究室主任盧晶盧教授,為大家針對智能語音交互的“金耳朵”語音前端處理技術進行了深度分享。
據WER統計,目前最頂尖的語音識別技術的誤識率是3%,已經與人類聽力的誤識率持平,但是WER統計大多數針對安靜場景的語音數據,在復雜環境中語音性能顯著惡化。人耳能夠自動屏蔽掉周圍的噪音,只關注你想聽到的聲音;但是機器做不到,在語音識別系統看來所接收到的所有聲音重要性都是一樣的,無法區分噪音和聲音,在復雜環境下語音識別率自然會下降。
因此,智能語音技術的發展讓語音前端處理的重要性日益凸顯。不僅要像手機、藍牙耳機、助聽器的語音前端處理系統一樣實現降噪,還要進一步還原語音,讓要讓機器聽得懂,進而提升語音識別和說話人識別系統的實用性和識別率。
盧晶盧教授表示,目前對干擾噪音的抑制有單麥克風和麥克風陣列兩種方案。其中單通道方案的關鍵點是噪聲功率譜的有效追蹤和語音邊界檢測,也可以基于深度學習的方案提升抑制干擾噪聲的能力。單通道方案優點是結構簡單,硬件成本低,對平穩噪聲效果明顯,但弱點是對非平穩噪聲處理效果不佳。
麥克風陣列由一組按一定幾何結構(常用線形、環形)擺放的麥克風組成,對采集的不同空間方向的聲音信號進行空時處理,實現噪聲抑制、混響去除、人聲干擾抑制、聲源測向、聲源跟蹤、陣列增益等功能,進而提高語音信號處理質量,以提高真實環境下的語音識別率。
理論上來說,麥克風數量多多益善,但系統的實現必須考慮性價比。那么,對于開發者來說,該如何平衡語音前端硬件系統的性能和價格呢?盧晶盧教授認為,在一般應用場景,說話人距離3m以內可以采用單麥克風;復雜場景使用2顆;需要DOA估計的復雜場景則需要3-4顆甚至8顆的麥克風。
聚焦音頻AI,炬芯推出智能語音全系列產品線
炬芯科技技術專家陶永耀在現場也為大家詳細的講解了炬芯目前的幾大核心平臺,同時也對智能語音的未來發表了獨到的觀點。
熟悉炬芯的人都知道,炬芯是做音頻起家的,最早做MP3,老人機、小音箱等產品。陶永耀表示,炬芯未來三到五年仍將重點聚焦以音頻為主線的三大領域,并引入人工智能元素。一是無線音頻和智能穿戴運動耳機;二是智能多媒體,將原來的老人機、游戲機、學習機,與人工智能結合形成跨界的產品。三是智慧計算與物聯網,包括無人機、VR/AR、OTT盒子等產品。
作為一家芯片廠商,炬芯聚焦解決智能語音平臺的共性需求,致力于智能語音交互技術中的前臺技術的發展。主要包括以下四點:1.mic陣列語音采集芯片;2整合語音前處理相關算法;3.整合本地語音識別引擎;4.雙mic語音前處理模塊。
目前炬芯已經擁有非常豐富的智能語音產品線,尤其是目前熱門且已經成功落地的智能早教機器人產品。其實在早教機器人方面炬芯已經推出了比較全面的解決方案,完整布局了低、中、高端市場,主要包括ATS3503、ATS3603、ATS3703。
針對火爆的智能音箱市場,炬芯在本次開發者交流大會上正式推出了全新的智能語音多媒體平臺。包括面向無屏Linux系統的智能語音平臺ATS3605D,面向有屏的Android智能語音平臺有S500、S700、S900,以及一顆支持4-8麥的語音采集套片ATT300X。
此外,炬芯還推出了雙模藍牙平臺AT3282X和ATB12XX,以及針對BLE藍牙智能語音平臺ATB110X。
此前,炬芯科技CEO周正宇博士被采訪表示,人工智能和物聯網概念一樣的龐大,如果人工智能像物聯網一樣不追求產品的落地,它將依然得不到人工智能需要追求實際的產品落地和智能化的用戶體驗,堅持小步快走的微智能化發展方針才是長久之計。炬芯在此次開發者大會上充分展示了智能語音全面的產品線,正是基于其小步快走的微智能化發展方針的最好實踐。