請看《國際電子商情》記者第一時間為您帶來魏教授的現場演講實錄:人工智能是一個老的新話題。之所以現在人工智能的話題又火起來,是因為兩個事情,谷歌研發的阿爾法Go和世界兩位頂尖棋手的對弈。第一件事是與韓國棋手李世的對弈,李世石成為唯一戰勝阿爾法Go的棋手。半年后,世界排名第一的柯潔說李世石不行,我來下。結果是0:3,柯潔痛哭流涕。所以這兩件事對人工智能的推動非常重要。
我們很多人認為阿爾法狗代表人工智能取代人腦的重要證據。這個事情沒有這么悲觀,最開始阿爾法狗是希望在沒有人類干預的情況下戰勝人類棋手。但其實在兩場棋局中還是有人干預。還有一件事是,IBM的人工智能計算機做了一場知識競賽。上個月我去了一趟IBM看了一下這個計算機,它的智力遠遠高于阿爾法狗。一個是人工智能的初創企業在大大增加,第二個是人工智能企業的融資額達到了50億美元。我們集成電路除了并購之外,要想在初創企業融資增速非常快。所以可以看到風險投資很活躍,說明這個行業是在上升期。
人工智能最重要的是預測未來
盡管如此,人工智能是老的新話題。因為上個世紀50年代人工智能就開始提出了。主要是為了讓機器展示智能模仿認知功能,如感知、推理、學習、及問題解決。1980年出現了機器學習,這是實現人工智能的主要途徑,主要是學習并開展數據驅動的經驗預測。2010年出現了深度學習,這是機器學習的一個分支,他是要模仿人腦通過人工神經網絡獲得高階學習機會。
傳統的數據挖掘主要是描述發生了什么,比如問一個問題,哪個產品在過去一年最賺錢,這個是最容易統計的。還有一個機器學習是預測,通過外推數據以預測行為和事件,是通過概率來分析。比如某個客戶在未來一年中最可能買哪個產品?而到了最后的一個環節就是決策,主要是領先的數據被互聯網公司應用。比如為了最大化下一年的銷售,產品的最佳售價是多少?
通過這三個清晰的問題可以看到三者之間的差距。所以人工智能最重要的是要預測未來,所以我們在對人工智能的理解要有正確的認識。
人工智能的基礎和根本是芯片
目前非常多的初創企業進入人工智能領域,機器學習的創業空間正在擁擠起來。工欲善其事必先利其器,人工智能的根本是智能芯片。離開芯片你沒辦法找到第二種人工智能的實現方法,未來的至少10年內你找不到可替代芯片的方法。如果你能找到,那我恭喜你。
從計算能力看,目前主要的人工智能芯片是GPU。GPU的計算能力比CPU大概提高了5倍,存儲能力是2倍到4倍。目前Intel占了71%的市場,Nvidia占了16%。Nvidia在分立式GPU上占據主要優勢。而人工智能主要應用于分立式GPU。但是目前任何一種方案無法用于本地移動終端,因為功耗太大。還有一種芯片方案是通過FPGA,與純CPU/SW相比性能提高5~10倍,功耗下降到了GPU環境的20%。
另一種是Google提出的TPU概念,與GPU相比,用較低的精度提高性能,功耗下降到GPU環境的10%。還有一個是NeuRAM,我個人認為這個學習方式很可能是未來的發展方向。還有一個是Micron,用的是MISD的并行架構,DRAM的工藝,這個開始有點意思。
類人腦芯片才是最終方向?
我更愿意介紹是IBM的TrueNorth。這樣一顆芯片,我在IBM訪問的時候有很大的震撼。這個完全仿照大腦的做法,能力相當高,功耗只有65毫瓦,它的學習能力極強。下一步IBM的最終目標是希望建立一個完全仿照大腦的類鬧計算機。如果這能實現,成本不高,這有可能真正實現所謂人形機器人。今后對我們進入老齡化的時代影響是非常大的。這個方面會實現最大的計算量。談到智能芯片,什么是智能芯片呢?是不是IBM的這個就是智能芯片?首先我們要看如何來理解智能或者智慧?智慧是人特有的一項東西,它包括思考和解決問題的能力。人類的智能整個環節包括感知、傳輸、存儲、處理、決策、傳輸、執行。決策這個環節又分為分休、計算、判斷、經驗知識。前后兩端從感知、傳輸到后端的傳輸、執行都不是智慧。而中間的才算是智慧。首先我們看人類大腦,140億個神經元。IBM要做的類腦芯片大概100多億個神經元,我們看到兩者之間有很接近的地方。工作頻率兩百赫茲,也不高。最奇怪的是,我們吃點什么米飯、豆腐、白菜,20瓦的功耗也可以完成這些功能。我們的大腦皮層面積是0.25平方米,這是自然進化而來的。
我們得過世界第一的天河計算機,用了27億個芯片,比人腦還要小一點。傳輸速度是每秒中30萬公里,它的頻率是4.2GHz,由于可以把很多運算堆在一起,可以做很多的運算,但是功耗、占地面積都非常驚人。所以這兩個對比,人腦和機器之間,要真正用機器實現人腦功能恐怕不容易。我們猜想人腦怎么工作的呢?出現一個事件怎么辦?首先要想象特征,我們怎么認出一個人?他的特征牢牢的出現在我的腦海中。我出現了記憶,做出決策,然后做出行動。這個過程是一個循環往復的過程。
當然,有可能我們見到的是一個陌生人,我記憶中不存在,我現需要做一個決策。然后把行動驗證我的記憶是否是對的。所以在不斷的往復過程中,我們在不斷的學習加深印象。這個過程中也許我見一個人,幾分鐘就有印象。所以學習中會有長久的迭代過程。所以計算是非常重要的。
什么芯片才算人工智能芯片?
人工智能芯片的幾個要素:
首先一定要可編程,這樣才能適應算法的演進和應用的多樣性。
架構的動態可變性,沒有一個芯片可以百分之百石英所有的算法。
要有架構的變化能力,最好小于10個時鐘周期,最好小于1個時鐘周期。
高計算效率,指令這樣的低效率架構就不要做了。
最重要的是,高能量的效率,我覺得理想情況下,每瓦功耗低于5萬億次。如果做不到這一點,真正做起來就會很難受。
有些應用功耗要小于1mw,有些東西要求速度足夠快,比如視頻識別,一些監控識別要做到每秒鐘大于25幀。
最后是低成本,你要做消費類產品價格不能搞。
體積小,也是為了能在移動設備上。
應用開發要簡便,不要讓做應用開發的工程師學習芯片設計知識。我們首先不知道人腦是怎么完成計算的,我們現在是用軟件+芯片構成的類腦軟件。包括智能軟件和智能芯片。以前我們做芯片跟軟件關系不大,但現在的一個方向是通過軟件來定義芯片。
大家說了,FPGA不行嗎?我們把FPGA的10大缺陷,1,細粒度,必須實現比特級的運算,第二配置信息量大,配置時間需要十幾毫秒到即使毫秒。另外是靜態編程以及邏輯不可復用。面積效率低。能量效率也很低,大量邏輯利用率低,需要特種工藝。FPGA需要最先進的制造工藝。另外應用者必須具備電路設計經驗。最后是成本高昂,所以FPGA價格在及時到幾萬美元一片。所以目前的標準來看,目前CPU+GPU、CPU+FPGA、CPU+ASIC的芯片結構都不是最好的人工智能芯片方法。我們認為FPGA的人工智能目前最主要的客戶現階段應該是互聯網企業,而互聯網企業基本上沒有什么量。你要用ASIC還是FPGA你一定要通過電路設計這條關。所以這個過程中大量的降低了大家的應用門檻。
軟件定義芯片成方向,AI芯片要讓手機能用
那么到底該怎么做?這里是一個硬件和軟件的拓撲架構,這個時候從計算的效率最好。功耗不見得最好。軟件的規模可以仁義達,但硬件規模總是有限的。我們只好將硬件分塊,不斷將軟件一塊塊進來運行。這就要求解決不同的問題,要求計算硬件架構和功能動態的、實時地跟隨軟件的變化而變化。最好能在一個時鐘周期,最多不超過10個時鐘周期改變。數據會根據控制單元的要求來配置計算單元,這樣的結構是通過C語言來實現計算,跟傳統的計算機語言是一樣的,但是編譯器有很大的不同。這是非常經典的馮諾依曼的計算結構。我們把Memory放進去,把I/O分開,我們到現在為止沒有改變任何馮諾依曼體系的結構。所以如果把可重構計算與經典計算進行比較,經典結構是剛性的,而可重構計算是函數化的柔性的。在性能上偏重于ASIC,靈活性上偏重于處理器。兩者兼而有之。我們利用這樣的結構實現了可重構的神經網絡計算。Thinker這是去年在深圳高交會上發布的。可能再過半個月會有一些新的消息出現。利用這個結構,來相應不同應用的神經架構網絡。這樣一個結構是什么樣的?我們的芯片用了TSMC 65nm的LP工藝,很小的Memory,很低的工作頻率,峰值性能做到409個GOPS。所以這樣一個小小的東西實現的性能如此之高,如果跟其它相比,可以發現能量效率至少高了5倍。
我們認為目前的人工智能芯片還不能進入手機,如果讓芯片進入手機,才真正能獲得新生。如果只給互聯網企業用,一定沒有量。所以不解決進入手機、家庭,人工智能芯片沒有希望。所以要解決功耗、成本問題。
國內的人工智能芯片和國外到底有多大差距?
最后總結,芯片是軟件性能載體,一定要滿足軟件不斷變化的計算需求。有人問我,目前國內的人工智能芯片跟國際上有多大差距? 我的回答是:應用上跟國際同行一個水平線。方法上落后。芯片上差半步。
但這個差半步并不意味著快成功了,中國有句古話叫“行百里而半九十”。也就是最后這10%要花費的精力可能要花費一半甚至以上的精力。可能就差這10%,我們就永遠無法實現。所以我們應用關注芯片的基礎技術,我們在芯片的能力上還有差距。如果克服不了這個差距,不要想超越人家。