新聞中心

站內(nèi)搜索

聯(lián)系我們

聯(lián)系人：黎鴻（市場(chǎng)總監(jiān)）
手機(jī)：15367834372
電話：0731-86450514
地址：湖南省長(zhǎng)沙市岳麓區(qū)金橋路10號(hào)

當(dāng)前位置：首頁 > 新聞中心 > 行業(yè)動(dòng)態(tài) > 查看詳情

>> 行業(yè)動(dòng)態(tài)

人工智能芯片發(fā)展的現(xiàn)狀及趨勢(shì)

來源： 長(zhǎng)沙超創(chuàng)電子科技有限公司 日期：2018-10-15 15:55:03 點(diǎn)擊：2887 屬于：行業(yè)動(dòng)態(tài)

自 1956年達(dá)特茅斯會(huì)議以來，關(guān)于人工智能（artificial intelligence, AI）的研究由于受到智能算法、計(jì)算速度、存儲(chǔ)水平等多方面因素的影響，經(jīng)歷了兩起兩落的發(fā)展，近年來在語音識(shí)別、計(jì)算機(jī)視覺等領(lǐng)域終于取得了重大突破。究其原因，業(yè)界普遍認(rèn)為有三大要素合力促成了這次突破：豐富的數(shù)據(jù)資源、深度學(xué)習(xí)算法和充足的計(jì)算力支持。豐富的數(shù)據(jù)資源取決于互聯(lián)網(wǎng)的普及和隨之產(chǎn)生的海量信息；以深度學(xué)習(xí)為代表的機(jī)器學(xué)習(xí)算法的精確性和魯棒性越來越好，適用于不同場(chǎng)景的各類算法不斷優(yōu)化完善，具備了大規(guī)模商業(yè)化應(yīng)用的潛力；而充足的算力則得益于摩爾定律的不斷演進(jìn)發(fā)展，高性能芯片大幅降低了深度學(xué)習(xí)算法所需的計(jì)算時(shí)間和成本。

雖然當(dāng)前摩爾定律逐漸放緩，但作為推動(dòng)人工智能技術(shù)不斷進(jìn)步的硬件基礎(chǔ)，未來 10年仍將是人工智能芯片（AI芯片）發(fā)展的重要時(shí)期，面對(duì)不斷增長(zhǎng)的市場(chǎng)需求，各類專門針對(duì)人工智能應(yīng)用的新穎設(shè)計(jì)理念和架構(gòu)創(chuàng)新將不斷涌現(xiàn)。

AI 芯片概述

當(dāng)前對(duì)人工智能芯片的定義并沒有一個(gè)公認(rèn)的標(biāo)準(zhǔn)。比較通用的看法是面向 AI應(yīng)用的芯片都可以稱為AI芯片，按設(shè)計(jì)思路主要分為三大類:專用于機(jī)器學(xué)習(xí)尤其是深度神經(jīng)網(wǎng)絡(luò)算法的訓(xùn)練和推理用加速芯片；受生物腦啟發(fā)設(shè)計(jì)的類腦仿生芯片；可高效計(jì)算各類人工智能算法的通用AI芯片。

為了支持多樣的 AI計(jì)算任務(wù)和性能要求，理想的AI芯片需要具備高度并行的處理能力，能夠支持各種數(shù)據(jù)長(zhǎng)度的按位、固定和浮點(diǎn)計(jì)算；比當(dāng)前大幾個(gè)數(shù)量級(jí)的存儲(chǔ)器帶寬，用于存儲(chǔ)海量數(shù)據(jù)；低內(nèi)存延遲及新穎的架構(gòu)，以實(shí)現(xiàn)計(jì)算元件和內(nèi)存之間靈活而豐富的連接。而且所有這些都需要在極低的功耗和極高的能量效率下完成。

在當(dāng)前人工智能各領(lǐng)域的算法和應(yīng)用還處在高速發(fā)展和快速迭代的階段，考慮到芯片的研發(fā)成本和生產(chǎn)周期，針對(duì)特定應(yīng)用、算法或場(chǎng)景的定制化設(shè)計(jì)很難適應(yīng)變化。針對(duì)特定領(lǐng)域而不針對(duì)特定應(yīng)用的設(shè)計(jì)，將是 AI芯片設(shè)計(jì)的一個(gè)指導(dǎo)原則，具有可重構(gòu)能力的AI芯片可以在更多應(yīng)用中廣泛使用，并且可以通過重新配置適應(yīng)新的AI算法、架構(gòu)和任務(wù)。

AI 芯片類型及發(fā)展情況

加州理工學(xué)院 Carver Mead 最早開始了 AI 芯片的研究，在 20世紀(jì) 80年代開始研究神經(jīng)擬態(tài)系統(tǒng)（neuromorphic electronic systems），利用模擬電路模仿生物神經(jīng)系統(tǒng)結(jié)構(gòu)。經(jīng)過 30多年的發(fā)展，目前已經(jīng)誕生了不同特色的各類 AI 芯片，主要包括圖形處理器（graphics processing unit，GPU）、現(xiàn)場(chǎng)可編程門陣列（field-programmable gatearray，F(xiàn)PGA）、數(shù)字信號(hào)處理（digital signal processing，DSP）、專用集成電路（application specific integrated circuits，ASIC）、眾核處理器、神經(jīng)擬態(tài)芯片等。近年來基于深度學(xué)習(xí)的圖像識(shí)別算法和語音識(shí)別算法取得了出色的成績(jī)，引起了學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注，隨著谷歌人工智能圍棋程序AlphaGo先后戰(zhàn)勝李世乭和柯潔，更是把人工智能的熱度推向全社會(huì)。谷歌這一成績(jī)離不開背后 AI加速芯片的貢獻(xiàn)，從初代AlphaGo采用 CPU+GPU 的搭建方案，到最新一代 AlphaGo Zero 采用專用高性能處理器（tensor processing unit，TPU），芯片的變化帶來了計(jì)算速度的巨大提升和功耗的大幅下降。由此可見針對(duì)不同的計(jì)算任務(wù)，不同類型的AI芯片往往各具優(yōu)勢(shì)。

AI加速芯片

簡(jiǎn)單地說，AI 加速芯片是指以現(xiàn)有芯片架構(gòu)為基礎(chǔ)，對(duì)某類特定算法或者場(chǎng)景進(jìn)行加速，從而實(shí)現(xiàn)在這一特定場(chǎng)景下的計(jì)算速度、功耗和成本等方面的優(yōu)化。通常包括基于深度神經(jīng)網(wǎng)絡(luò)的各類算法，以及圖像識(shí)別、視頻檢索、語音識(shí)別、聲紋檢測(cè)、搜索引擎優(yōu)化、自動(dòng)駕駛等任務(wù)。AI加速芯片的設(shè)計(jì)主要有兩種思路：利用已有的GPU、FPGA、DSP、眾核處理器等芯片以異構(gòu)計(jì)算的方式來實(shí)現(xiàn)；設(shè)計(jì)專用的ASIC芯片。

GPU

GPU，即圖形處理器，是一種由大量核心組成的大規(guī)模并行計(jì)算架構(gòu)，專為同時(shí)處理多重任務(wù)而設(shè)計(jì)，原本的功能是幫助 CPU處理圖形顯示的任務(wù)，尤其是3D圖形顯示。為了執(zhí)行復(fù)雜的并行計(jì)算，快速進(jìn)行圖形渲染，GPU的核數(shù)遠(yuǎn)超 CPU，但每個(gè)核擁有的緩存相對(duì)較小，數(shù)字邏輯運(yùn)算單元也更簡(jiǎn)單，更適合計(jì)算密集型的任務(wù)。Intel的GPU主要做為集成顯卡使用，應(yīng)用于Intel 的主板和 CPU，而 Nvidia 和 AMD 則在獨(dú)立顯卡領(lǐng)域更具優(yōu)勢(shì)。

深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程中計(jì)算量極大，而且數(shù)據(jù)和運(yùn)算是可以高度并行的，GPU 具備進(jìn)行海量數(shù)據(jù)并行運(yùn)算的能力并且為浮點(diǎn)矢量運(yùn)算配備了大量計(jì)算資源，與深度學(xué)習(xí)的需求不謀而合，因此最先被引入運(yùn)行深度學(xué)習(xí)算法，成為高性能計(jì)算領(lǐng)域的主力芯片之一。但由于 GPU不能支持復(fù)雜程序邏輯控制，仍然需要使用高性能CPU配合來構(gòu)成完整的計(jì)算系統(tǒng)。

FPGA

FPGA 是在 PAL、GAL、CPLD 等可編程邏輯器件的基礎(chǔ)上進(jìn)一步發(fā)展的產(chǎn)物。它作為專用集成電路領(lǐng)域中的一種半定制電路出現(xiàn)，既解決了定制電路靈活性上的不足，又克服了原有可編程器件門電路數(shù)量有限的缺點(diǎn)。FPGA 利用門電路直接運(yùn)算，速度快，而用戶可以自由定義這些門電路和存儲(chǔ)器之間的布線，改變執(zhí)行方案，以期得到最佳效果。FPGA 可以采用 OpenCL等更高效的編程語言，降低了硬件編程的難度，還可以集成重要的控制功能，整合系統(tǒng)模塊，提高了應(yīng)用的靈活性，與 GPU相比，F(xiàn)PGA具備更強(qiáng)的計(jì)算能力和更低的功耗。

目前，F(xiàn)PGA的主要廠商Xilinx和被Intel收購的Altera 都推出了專門針對(duì) AI 加速的 FPGA 硬件和軟件工具。而各個(gè)主要的云服務(wù)廠商，比如亞馬遜、微軟、阿里云等都推出了專門的云端 FPGA 實(shí)例來支持 AI 應(yīng)用。中國剛剛被 Xilinx 收購的北京深鑒科技有限公司也是基于FPGA來設(shè)計(jì)深度學(xué)習(xí)的加速器架構(gòu)，可以靈活擴(kuò)展用于服務(wù)器端和嵌入式端。

DSP

DSP是一種由大規(guī)模集成電路芯片組成的用來完成某種信號(hào)處理任務(wù)的處理器。DSP善于測(cè)量、計(jì)算、過濾或壓縮連續(xù)的真實(shí)模擬信號(hào)，廣泛應(yīng)用于通信與信息系統(tǒng)、信號(hào)與信息處理、自動(dòng)控制、雷達(dá)、航空航天、醫(yī)療、家用電器等領(lǐng)域。針對(duì)濾波、矩陣運(yùn)算、FFT（fast Fourier transformation）等需要大量乘加法運(yùn)算的特點(diǎn)，DSP內(nèi)部配有獨(dú)立的乘法器和加法器，從而大大提高了運(yùn)算速率。

DSP 種類繁多，目前應(yīng)用于 AI 領(lǐng)域的 DSP 主要用于處理視覺系統(tǒng)如圖像、視頻等方面的任務(wù)，在自動(dòng)駕駛、安防監(jiān)控、無人機(jī)和移動(dòng)終端等領(lǐng)域最為常見。這些 DSP 中加入了專為深度神經(jīng)網(wǎng)絡(luò)定制的加速部件，如矩陣乘和累加器、全連接的激活層和池化層等。由于 DSP 具有高速、靈活、體積小、低功耗、可編程的特點(diǎn)，非常適合被用在終端設(shè)備中，例如手機(jī)和攝像頭。

眾核處理器

眾核處理器采用將多個(gè)處理核心整合在一起的處理器架構(gòu)，主要面向高性能計(jì)算領(lǐng)域，作為CPU的協(xié)處理器存在。眾核處理器適合處理并行程度高的計(jì)算密集型任務(wù)，如基因測(cè)序、氣象模擬等。比起 GPU，眾核處理器支持的計(jì)算任務(wù)的控制邏輯和數(shù)據(jù)類型要更加復(fù)雜。2000年后，該領(lǐng)域的芯片研究一直很活躍，例如IBM CELL和 Kalray MPPA。Intel 的至強(qiáng)融核處理器（Xeon Phi）是典型的眾核處理器，其中2017年發(fā)布的KNL代表了眾核處理器的領(lǐng)先水平。

眾核處理器的結(jié)構(gòu)能有效地利用現(xiàn)代網(wǎng)絡(luò)和服務(wù)器等應(yīng)用中較高的線程并行度，雖然芯片面積和功耗會(huì)隨著內(nèi)核數(shù)量的增加而增加，但性能也隨之有效地增加。而增加運(yùn)算部件和指令發(fā)射寬度等技術(shù)在增大芯片面積的同時(shí)，會(huì)拉長(zhǎng)信號(hào)傳輸線路，顯著增加線延遲，因此眾核處理器更適用于數(shù)據(jù)中心部署的各類 AI訓(xùn)練和推理任務(wù)。

ASIC

ASIC 是一種為專用目的設(shè)計(jì)的，面向特定用戶需求的定制芯片，在大規(guī)模量產(chǎn)的情況下具備性能更強(qiáng)、體積更小、功耗更低、成本更低、可靠性更髙等優(yōu)點(diǎn)。ASIC分為全定制和半定制。全定制設(shè)計(jì)需要設(shè)計(jì)者完成所有電路的設(shè)計(jì)，因此需要大量人力物力，靈活性好，但開發(fā)效率低下，時(shí)間成本高昂。如果設(shè)計(jì)較為理想，全定制能夠比半定制的 ASIC 芯片運(yùn)行速度更快。半定制使用庫中標(biāo)準(zhǔn)邏輯單元，設(shè)計(jì)時(shí)可以從標(biāo)準(zhǔn)邏輯單元庫中選擇門電路、加法器、比較器、數(shù)據(jù)通路、存儲(chǔ)器甚至系統(tǒng)級(jí)模塊和 IP核，這些邏輯單元已經(jīng)布局完畢，而且設(shè)計(jì)得較為可靠，設(shè)計(jì)者可以較方便地完成系統(tǒng)設(shè)計(jì)。

近年來越來越多的公司開始采用ASIC芯片進(jìn)行深度學(xué)習(xí)算法加速，其中表現(xiàn)最為突出的是 Google 的TPU。TPU 的主要模塊包括 24 MB 的局部?jī)?nèi)存、6 MB的累加器內(nèi)存、256×256個(gè)矩陣乘法單元、非線性神經(jīng)元計(jì)算單元，以及用于歸一化和池化的計(jì)算單元。TPU比同時(shí)期的GPU或CPU平均提速15~30倍，能效比提升 30~80倍。中國的北京寒武紀(jì)科技有限公司、北京比特大陸科技有限公司、北京地平線信息技術(shù)有限公司等公司也都推出了用于深度神經(jīng)網(wǎng)絡(luò)加速的ASIC芯片。目前基于 DNN的算法還沒有統(tǒng)一標(biāo)準(zhǔn)，而且算法還在不斷快速演進(jìn)，所以 ASIC的設(shè)計(jì)需要保持一定的可編程性，采取軟硬件協(xié)同設(shè)計(jì)。

類腦仿生芯片

當(dāng)今類腦仿生芯片的主流理念是采用神經(jīng)擬態(tài)工程設(shè)計(jì)的神經(jīng)擬態(tài)芯片。神經(jīng)擬態(tài)芯片采用電子技術(shù)模擬已經(jīng)被證明的生物腦的運(yùn)作規(guī)則，從而構(gòu)建類似于生物腦的電子芯片，即“仿生電子腦”。神經(jīng)擬態(tài)主要指用包括模擬、數(shù)字或模數(shù)混合超大規(guī)模集成電路VLSI（也包括神經(jīng)元或者神經(jīng)突觸模型的新型材料或者電子元器件研究）和軟件系統(tǒng)實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)模型，并在此之上構(gòu)建智能系統(tǒng)的研究。神經(jīng)擬態(tài)工程發(fā)展成為一個(gè)囊括神經(jīng)生物學(xué)、物理學(xué)、數(shù)學(xué)、計(jì)算機(jī)科學(xué)和電子工程的交叉學(xué)科。神經(jīng)擬態(tài)研究陸續(xù)在全世界范圍內(nèi)開展，并且受到了各國政府的重視和支持，如美國的腦計(jì)劃、歐洲的人腦項(xiàng)目，以及中國的類腦計(jì)算計(jì)劃等。受到腦結(jié)構(gòu)研究的成果啟發(fā)，復(fù)雜神經(jīng)網(wǎng)絡(luò)在計(jì)算上具有低功耗、低延遲、高速處理、時(shí)空聯(lián)合等特點(diǎn)。

目前神經(jīng)擬態(tài)芯片的設(shè)計(jì)方法主要分為非硅和硅技術(shù)。非硅主要指采用憶阻器等新型材料和器件搭建的神經(jīng)形態(tài)芯片，還處于研究階段。模擬集成電路的代表是瑞士蘇黎世聯(lián)邦理工學(xué)院的 ROLLS芯片和海德堡大學(xué)的BrainScales芯片。數(shù)字集成電路又分為異步同步混合和純同步兩種。其中異步（無全局時(shí)鐘）數(shù)字電路的代表是 IBM 的 TrueNorth，純同步的數(shù)字電路代表是清華大學(xué)的天機(jī)系列芯片。另外，對(duì)于片上自學(xué)習(xí)能力，最近Intel推出了Loihi芯片，帶有自主片上學(xué)習(xí)能力，通過脈沖或尖峰傳遞信息，并自動(dòng)調(diào)節(jié)突觸強(qiáng)度，能夠通過環(huán)境中的各種反饋信息進(jìn)行自主學(xué)習(xí)。中國的上海西井信息科技有限公司也成功制備了帶有片上學(xué)習(xí)能力的芯片。

通用AI芯片

現(xiàn)今的 AI芯片在某些具體任務(wù)上可以大幅超越人的能力，但究其通用性與適應(yīng)性，與人類智能相比差距甚遠(yuǎn)，大多處于對(duì)特定算法的加速階段。而 AI芯片的最終成果將是通用 AI芯片，并且最好是淡化人工干預(yù)的自學(xué)習(xí)、自適應(yīng)芯片。因此未來通用 AI芯片應(yīng)包含以下特征。

1）可編程性：適應(yīng)算法的演進(jìn)和應(yīng)用的多樣性。

2）架構(gòu)的動(dòng)態(tài)可變性：能適應(yīng)不同的算法，實(shí)現(xiàn)高效計(jì)算。

3）高效的架構(gòu)重構(gòu)能力或自學(xué)習(xí)能力。

4）高計(jì)算效率：避免使用指令這類低效率的架構(gòu)。

5）高能量效率：能耗比大于5 Tops/W（即每瓦特進(jìn)行5×1012次運(yùn)算）。

6）低成本低功耗：能夠進(jìn)入物聯(lián)網(wǎng)設(shè)備及消費(fèi)類電子中。

7）體積小：能夠加載在移動(dòng)終端上。

8）應(yīng)用開發(fā)簡(jiǎn)便：不需要用戶具備芯片設(shè)計(jì)方面的知識(shí)。

目前尚沒有真正意義上的通用AI芯片誕生，而基于可重構(gòu)計(jì)算架構(gòu)的軟件定義芯片（software defined chip）或許是通用 AI芯片的出路。軟件定義芯片顧名思義就是讓芯片根據(jù)軟件進(jìn)行適應(yīng)與調(diào)整，簡(jiǎn)單來說就是將軟件通過不同的管道輸送到硬件中來執(zhí)行功能，使芯片能夠?qū)崟r(shí)地根據(jù)軟件、產(chǎn)品、應(yīng)用場(chǎng)景的需求改變架構(gòu)和功能，實(shí)現(xiàn)更加靈活的芯片設(shè)計(jì)。沿用這種架構(gòu)設(shè)計(jì)出來的芯片，可以讓芯片的計(jì)算能力按照軟件的需求來調(diào)整適應(yīng)，而不是沿用傳統(tǒng)芯片設(shè)計(jì)的剛性架構(gòu)，讓應(yīng)用適應(yīng)架構(gòu)。

可重構(gòu)計(jì)算技術(shù)允許硬件架構(gòu)和功能隨軟件變化而變化，兼具處理器的通用性和 ASIC的高性能和低功耗，是實(shí)現(xiàn)軟件定義芯片的核心，被公認(rèn)為是突破性的下一代集成電路技術(shù)。清華大學(xué)微電子學(xué)研究所設(shè)計(jì)的 AI 芯片 Thinker，采用可重構(gòu)計(jì)算架構(gòu)，能夠支持卷積神經(jīng)網(wǎng)絡(luò)、全連接神經(jīng)網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò)等多種 AI算法。Thinker芯片通過以下 3個(gè)層面的可重構(gòu)計(jì)算技術(shù)，實(shí)現(xiàn)軟件定義芯片。

1）計(jì)算陣列重構(gòu)：Thinker芯片的計(jì)算陣列由多個(gè)并行計(jì)算單元互連而成。每個(gè)計(jì)算單元可以根據(jù)算法所需要的基本算子不同而進(jìn)行功能重構(gòu)。此外，在復(fù)雜 AI 任務(wù)中，多種 AI 算法的計(jì)算資源需求不同，因此Thinker芯片支持計(jì)算陣列的按需資源劃分以提高資源利用率和能量效率。

2）存儲(chǔ)帶寬重構(gòu)：Thinker芯片的片上存儲(chǔ)帶寬能夠根據(jù) AI算法的不同而進(jìn)行重構(gòu)。存儲(chǔ)內(nèi)的數(shù)據(jù)分布會(huì)隨著帶寬的改變而調(diào)整，以提高數(shù)據(jù)復(fù)用性和計(jì)算并行度，提高了計(jì)算吞吐和能量效率。

3）數(shù)據(jù)位寬重構(gòu)：16 bit數(shù)據(jù)位寬足以滿足絕大多數(shù)應(yīng)用的精度需求，對(duì)于一些精度要求不高的場(chǎng)景，甚至 8 bit數(shù)據(jù)位寬就已經(jīng)足夠。為了滿足AI算法多樣的精度需求，Thinker芯片的計(jì)算單元支持高/低（16/8 bit）兩種數(shù)據(jù)位寬重構(gòu)。高比特模式下計(jì)算精度提升，低比特模式下計(jì)算單元吞吐量提升進(jìn)而提高性能。

可重構(gòu)計(jì)算技術(shù)作為實(shí)現(xiàn)軟件定義芯片的重要技術(shù)，非常適合應(yīng)用于 AI芯片的設(shè)計(jì)當(dāng)中。采用可重構(gòu)計(jì)算技術(shù)之后，軟件定義的層面不僅僅局限于功能這一層面，算法的計(jì)算精度、性能和能效等都可以納入軟件定義的范疇?？芍貥?gòu)計(jì)算技術(shù)借助自身實(shí)時(shí)動(dòng)態(tài)配置的特點(diǎn)，實(shí)現(xiàn)軟硬件協(xié)同設(shè)計(jì)，為 AI芯片帶來極高的靈活度和適用范圍。Thinker團(tuán)隊(duì)最新推出的 Thinker 2人臉識(shí)別芯片，能夠做到 6 ms 人臉識(shí)別（iPhone X 為10 ms），準(zhǔn)確率超過 98%；以及 Thinker S語音識(shí)別芯片，不僅功耗只有 200 μW，只需要節(jié) 7 號(hào) AAA 電池就運(yùn)行 1 年，而且可以進(jìn)行聲紋識(shí)別?！禡IT Technology Review》2018年初在一篇專稿中評(píng)論了 Thinker團(tuán)隊(duì)的工作，認(rèn)為這是中國取得的頂級(jí)成就。

AI 芯片市場(chǎng)現(xiàn)狀

2018 年全球 AI 芯片市場(chǎng)規(guī)模預(yù)計(jì)將超過 20億美元，隨著包括谷歌、Facebook、微軟、亞馬遜以及百度、阿里、騰訊在內(nèi)的互聯(lián)網(wǎng)巨頭相繼入局，預(yù)計(jì)到2020年全球市場(chǎng)規(guī)模將超過 100億美元，其中中國的市場(chǎng)規(guī)模近25億美元，增長(zhǎng)非常迅猛，發(fā)展空間巨大。目前全球各大芯片公司都在積極進(jìn)行AI芯片的布局。在云端，Nvidia的系列 GPU芯片被廣泛應(yīng)用于深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和推理。Google TPU 通過云服務(wù) Cloud TPU 的形式把 TPU 開放商用，處理能力達(dá)到 180 Tflop，提供64 GB的 HBM內(nèi)存，2400 Gbit/s的存儲(chǔ)帶寬。老牌芯片巨頭 Intel推出了 Nervana™ Neural Network Processors（NNP），該系列架構(gòu)還可以優(yōu)化 32 GB HBM2，1 Tbit/s帶寬和 8 Tbit/s訪問速度的神經(jīng)網(wǎng)絡(luò)計(jì)算。而初創(chuàng)公司如 Graph core、Cerebras、Wave computing、寒武紀(jì)、比特大陸等也加入了競(jìng)爭(zhēng)的行列，陸續(xù)推出了針對(duì) AI的芯片和硬件系統(tǒng)。

然而對(duì)于某些應(yīng)用，由于網(wǎng)絡(luò)延遲、帶寬和隱私問題等各類原因，必須在邊緣節(jié)點(diǎn)上執(zhí)行推斷。例如，自動(dòng)駕駛汽車的推斷，不能交由云端完成，否則如果出現(xiàn)網(wǎng)絡(luò)延時(shí)，則會(huì)發(fā)生災(zāi)難性后果；大型城市動(dòng)輒百萬的高清攝像頭，其人臉識(shí)別如果全部交由云端完成，高清錄像的數(shù)據(jù)傳輸會(huì)讓通信網(wǎng)絡(luò)不堪重負(fù)。未來相當(dāng)一部分人工智能應(yīng)用場(chǎng)景中，要求邊緣處的終端設(shè)備本身具備足夠的推斷計(jì)算能力。而目前邊緣處理器芯片的計(jì)算能力，并不能滿足在本地實(shí)現(xiàn)深度神經(jīng)網(wǎng)絡(luò)推斷的需求。業(yè)界需要專門設(shè)計(jì)的 AI芯片，賦予設(shè)備足夠的能力去應(yīng)對(duì)未來越發(fā)增多的人工智能應(yīng)用場(chǎng)景。除了計(jì)算性能的要求之外，功耗和成本是在邊緣節(jié)點(diǎn)工作的AI芯片必須面對(duì)的重要約束。

智能手機(jī)是目前應(yīng)用最為廣泛的邊緣計(jì)算終端設(shè)備，包括三星、蘋果、華為、高通、聯(lián)發(fā)科在內(nèi)的手機(jī)芯片廠商紛紛推出或者正在研發(fā)專門適應(yīng)AI應(yīng)用的芯片產(chǎn)品。另外，也有很多初創(chuàng)公司加入這個(gè)領(lǐng)域，為邊緣計(jì)算設(shè)備提供芯片和系統(tǒng)方案，比如北京中科寒武紀(jì)科技有限公司的 1A處理器、北京地平線信息技術(shù)有限公司的旭日處理器、北京深鑒科技有限公司的DPU等。傳統(tǒng)的 IP 廠商，包括 ARM、Synopsys、Cadence等公司也都為包括手機(jī)、平板電腦、智能攝像頭、無人機(jī)、工業(yè)和服務(wù)機(jī)器人、智能音箱等邊緣計(jì)算設(shè)備開發(fā)專用 IP產(chǎn)品。此外在終端應(yīng)用中還蘊(yùn)藏著智慧物聯(lián)網(wǎng)這一金礦，AI芯片只有實(shí)現(xiàn)從云端走向終端，才能真正賦予“萬物智能”。

AI 芯片未來趨勢(shì)

在 AI芯片領(lǐng)域，目前還沒有出現(xiàn)一款 CPU類的通用AI芯片，人工智能想要像移動(dòng)支付那樣深入人心，改變社會(huì)，可能還差一個(gè)“殺手”級(jí)別的應(yīng)用。無論是圖像識(shí)別、語音識(shí)別、機(jī)器翻譯、安防監(jiān)控、交通規(guī)劃、自動(dòng)駕駛、智能陪伴、智慧物聯(lián)網(wǎng)等，AI涵蓋了人們生產(chǎn)生活的方方面面，然而距離 AI應(yīng)用落地和大規(guī)模商業(yè)化還有很長(zhǎng)的路要走。而對(duì)于芯片從業(yè)者來講，當(dāng)務(wù)之急是研究芯片架構(gòu)問題。軟件是實(shí)現(xiàn)智能的核心，芯片是支撐智能的基礎(chǔ)。當(dāng)前 AI芯片發(fā)展，短期內(nèi)以異構(gòu)計(jì)算為主來加速各類應(yīng)用算法的落地；中期要發(fā)展自重構(gòu)、自學(xué)習(xí)、自適應(yīng)的芯片來支持算法的演進(jìn)和類人的自然智能；長(zhǎng)期則朝通用AI芯片的方向發(fā)展。

通用AI計(jì)算

AI的通用性實(shí)際包括2個(gè)層級(jí)：第一個(gè)層級(jí)是可以處理任意問題；第二個(gè)層級(jí)是同一時(shí)間處理任意問題。第一層級(jí)的目標(biāo)是讓AI的算法可以通過不同的設(shè)計(jì)、數(shù)據(jù)和訓(xùn)練方法來處理不同的問題。例如，利用現(xiàn)在流行的深度學(xué)習(xí)方法訓(xùn)練AI下棋、圖像識(shí)別、語音識(shí)別、行為識(shí)別、運(yùn)動(dòng)導(dǎo)航等。但是，不同的任務(wù)使用不同的數(shù)據(jù)集來獨(dú)立訓(xùn)練，模型一旦訓(xùn)練完成，只適用于這種任務(wù)，而不能用于處理其他任務(wù)。所以，可以說這種 AI的算法和訓(xùn)練方法是通用的，而它訓(xùn)練出來用于執(zhí)行某個(gè)任務(wù)的模型是不通用的。第二層級(jí)的目標(biāo)是讓訓(xùn)練出來的模型可以同時(shí)處理多種任務(wù)，就像人一樣可以既會(huì)下棋，又會(huì)翻譯，還會(huì)駕駛汽車和做飯。這個(gè)目標(biāo)更加困難，目前還沒有哪一個(gè)算法可以如此全能。

通用AI芯片

通用 AI 芯片就是能夠支持和加速通用 AI 計(jì)算的芯片。關(guān)于通用AI的研究希望通過一個(gè)通用的數(shù)學(xué)模型，能夠最大限度概括智能的本質(zhì)。目前比較主流的看法是系統(tǒng)能夠具有通用效用最大化能力：即系統(tǒng)擁有通用歸納能力，能夠逼近任意可逼近的模式，并能利用所識(shí)別到的模式取得一個(gè)效用函數(shù)的最大化效益。這是很學(xué)術(shù)化的語言，如果通俗地說，就是讓系統(tǒng)通過學(xué)習(xí)和訓(xùn)練，能夠準(zhǔn)確高效地處理任意智能主體能夠處理的任務(wù)。通用 AI的難點(diǎn)主要有 2個(gè)：通用性，包括算法和架構(gòu)；實(shí)現(xiàn)復(fù)雜程度。當(dāng)前，摩爾定律的逐漸失效和馮·諾伊曼架構(gòu)的瓶頸這2個(gè)巨大的技術(shù)挑戰(zhàn)也是通用AI芯片需要考慮的問題。想要解決這 2個(gè)問題僅通過芯片的設(shè)計(jì)理念和架構(gòu)創(chuàng)新是行不通的，還需要取決于更先進(jìn)的制程工藝、新型半導(dǎo)體材料、新型存儲(chǔ)器件以及人類對(duì)于自身大腦更進(jìn)一步的認(rèn)知。

AI 芯片面臨的機(jī)遇與挑戰(zhàn)

目前全球人工智能產(chǎn)業(yè)還處在高速變化發(fā)展中，廣泛的行業(yè)分布為人工智能的應(yīng)用提供了廣闊的市場(chǎng)前景，快速迭代的算法推動(dòng)人工智能技術(shù)快速走向商用，AI芯片是算法實(shí)現(xiàn)的硬件基礎(chǔ)，也是未來人工智能時(shí)代的戰(zhàn)略制高點(diǎn)，但由于目前的 AI算法往往都各具優(yōu)劣，只有給它們?cè)O(shè)定一個(gè)合適的場(chǎng)景才能最好地發(fā)揮其作用，因此，確定應(yīng)用領(lǐng)域就成為發(fā)展AI芯片的重要前提。但遺憾的是，當(dāng)前尚不存在適應(yīng)多種應(yīng)用的通用算法，人工智能的“殺手”級(jí)應(yīng)用還未出現(xiàn)，已經(jīng)存在的一些應(yīng)用對(duì)于消費(fèi)者的日常生活來說也非剛需，因此哪家芯片公司能夠抓住市場(chǎng)痛點(diǎn)，最先實(shí)現(xiàn)應(yīng)用落地，就可以在人工智能芯片的賽道上取得較大優(yōu)勢(shì)。

架構(gòu)創(chuàng)新是 AI芯片面臨的一個(gè)不可回避的課題。需要回答一個(gè)重要問題:是否會(huì)出現(xiàn)像通用CPU那樣獨(dú)立存在的 AI處理器？如果存在的話，它的架構(gòu)是怎樣的？如果不存在，目前以滿足特定應(yīng)用為主要目標(biāo)的AI芯片就一定只能以 IP核的方式存在，最終被各種各樣的 SoC（system-on-a-chip）所集成。這無疑帶來了新的問題，芯片的體積和功耗是必須要考慮的重要因素，傳統(tǒng)芯片公司在 SoC的設(shè)計(jì)優(yōu)化和工程實(shí)現(xiàn)上無疑比以算法起家的初創(chuàng)AI芯片公司更具經(jīng)驗(yàn)。

從芯片發(fā)展的大趨勢(shì)來看，現(xiàn)在還是 AI芯片的初級(jí)階段。無論是科研還是產(chǎn)業(yè)應(yīng)用都有巨大的創(chuàng)新空間。從確定算法、應(yīng)用場(chǎng)景的 AI加速芯片向具備更高靈活性、適應(yīng)性的通用智能芯片發(fā)展是技術(shù)發(fā)展的必然方向。未來 2 年之內(nèi) AI 芯片產(chǎn)業(yè)將持續(xù)火熱，公司扎堆進(jìn)入，但是到了2020年前后，則將會(huì)出現(xiàn)一批出局者，行業(yè)洗牌開始，最終的成功與否則將取決于各家公司技術(shù)路徑的選擇和產(chǎn)品落地的速度。

上一新聞：軍民兩用技術(shù)轉(zhuǎn)移機(jī)制和政策研究

下一新聞：關(guān)于未來的10點(diǎn)核心思考