日前,中國領先的視頻監控芯片供貨商中星微電子發布,中國首款嵌入式神經網絡處理器(NPU)“星光智能一號”的最新成果,該芯片已于今年3月6日實現量產。
單顆NPU由28納米工藝制造,能耗僅為400mW,可廣泛應用于高清視頻監控、智能駕駛輔助、無人機、機器人等嵌入式機器視覺領域。
國家重點實驗室執行主任張韻東介紹說,NPU采用了“數據驅動并行計算”的架構,徹底顛覆了傳統的馮諾依曼架構。這種數據流(Dataflow)類型的處理器,極大地提升了計算能力與功耗的比例,特別擅長處理視頻、圖像類的海量多媒體數據,使得人工智能在嵌入式機器視覺應用中可以大顯身手。
在不久前的人機大戰中,AlphaGo依靠模仿人腦生物機理的深度學習算法而擊敗人類。深度學習,是源于對生物人腦機理的仿生學研究而形成的一種人工智能算法。
作為深度學習神經網絡的一種,卷積神經網絡CNN(Convolutional Neural Network)算法,已成為當前人工智能機器視覺領域的研究熱點。CNN算法模型的特性可以概括為海量的輸入數據、大規模的MAC運算、稀疏的權值矩陣、靈活的數據位寬和多樣的網絡拓撲等特性。“星光智能一號”芯片
張韻東介紹,NPU是針對CNN的算法模型特性而專門設計的一款神經網絡處理器。每個NPU處理器具有4個內核(NPU Core),每個內核有兩個數據流處理器(Dataflow Processor), 每個數據流處理器具有8個長位寬或16個短位寬的SIMD(單指令多數據)運算單元。在一個時鐘周期內可同時完成64個長位寬MAC運算或者128個短位寬MAC運算。每個NPU核具有38G Ops的長位寬處理能力或者76G Ops的短位寬處理能力。NPU的處理性能可以組成多核陣列來提升,也可以通過多芯片級聯的方式進一步擴展,以滿足更復雜的CNN網絡運算的性能需求。
“每個NPU核還具有256KB Level-2 Cache,以及整塊數據搬移(Block Data Access),片內數據共享(Data-sharing Between Processor Units),提升數據流的吞吐效率。” 張韻東表示,在軟件方面,利用了稀疏數據優化(Optimization for Sparse Data)等特性提高計算效率。“NPU支持Caffe、TensorFlow等多種神經網絡框架, 支持AlexNet、GoogleNet等各類神經網絡。”
與傳統CPU處理器相比,這種NPU處理器的信息處理能力要高出100倍甚至1000倍,能讓攝像頭變成“帶大腦的眼睛”,推動機器視覺等人工智能技術從高大上的科學實驗室走進尋常百姓家。