國(guó)產(chǎn)AI芯片之爭(zhēng)才剛剛開(kāi)始 |
發(fā)布時(shí)間:2023-10-30 14:25:40| 瀏覽次數(shù): |
AMD首席執(zhí)行官蘇姿豐介紹稱,MI300X提供的高帶寬內(nèi)存(HBM)密度是英偉達(dá)H100的2.4倍,HBM帶寬是競(jìng)品的1.6倍。華爾街分析師也普遍認(rèn)為,AMD的這款芯片將對(duì)目前掌握AI芯片市場(chǎng)逾八成份額的英偉達(dá)構(gòu)成有力挑戰(zhàn),這款MI300X加速器,有望替代英偉達(dá)的同類產(chǎn)品。 然而,市場(chǎng)對(duì)本次新品的反響似乎并不熱烈。截至隔夜收盤,AMD股價(jià)下跌超3.6%,被挑戰(zhàn)的英偉達(dá)不跌反漲,股價(jià)單日大漲3.90%。 至于當(dāng)日AMD股價(jià)下跌的原因,可能包括英偉達(dá)在AI發(fā)展方面更為成熟,而AMD公司的新品仍有待市場(chǎng)驗(yàn)證。此外,其客戶更關(guān)心的是價(jià)格問(wèn)題。作為參考,由于供需緊張,英偉達(dá)H100的價(jià)格已經(jīng)達(dá)到4萬(wàn)美元/枚,而AMD沒(méi)有披露MI300X的定價(jià),難以與英偉達(dá)H100形成對(duì)比。 01躥紅的英偉達(dá) 2022年ChatGPT橫空出世,把AI 行業(yè)的發(fā)展推向了一個(gè)新的高潮,生成式 AI 需要基于海量的數(shù)據(jù)進(jìn)行推理訓(xùn)練,高算力的 GPU 加速卡自然也成了市場(chǎng)的搶手貨。乘著AI的東風(fēng),英偉達(dá)坐上了“算力霸主”的寶座。 據(jù)悉,微軟用幾億美元,耗費(fèi)上萬(wàn)張英偉達(dá)A100芯片打造超算平臺(tái),只為給ChatGPT和新版必應(yīng)提供更好的算力。不僅如此,微軟還在Azure的60多個(gè)數(shù)據(jù)中心部署了幾十萬(wàn)張GPU,用于ChatGPT的推理。特斯拉CEO馬斯克也購(gòu)買了約1萬(wàn)個(gè)GPU,用于公司的兩個(gè)數(shù)據(jù)中心之一。除此之外,像亞馬遜、阿里、百度等眾多科技公司都在競(jìng)相部署AI芯片。 供需的極度不平衡讓英偉達(dá)的GPU一芯難求,開(kāi)啟漲價(jià)。據(jù)市場(chǎng)消息人士透露,英偉達(dá)的A100和H100 AI GPU訂單還在不斷增加,A800和H800的售價(jià)已上漲40%,新訂單交期可能要延長(zhǎng)到12月份。 在炙手可熱的AI浪潮下,英偉達(dá)賺得盆滿缽滿。英偉達(dá)表示,其截至 7 月的本季度銷售額預(yù)計(jì)將達(dá) 110 億美元,較華爾街之前的估計(jì)高出 50%以上。不過(guò),作為AI的基礎(chǔ)設(shè)施,算力芯片環(huán)節(jié)的“一家獨(dú)大”顯然不是有利于行業(yè)長(zhǎng)遠(yuǎn)發(fā)展的生態(tài),市場(chǎng)迫切需要引入新的競(jìng)爭(zhēng)者,AMD的出現(xiàn)或許有望“分擔(dān)”AI市場(chǎng)的壓力。 與此同時(shí),中國(guó)本土AI應(yīng)用和AI芯片初創(chuàng)公司也隨著AI的熱潮和風(fēng)投的關(guān)注而遍地開(kāi)花。那么,中國(guó)的AI芯片研究進(jìn)展如何了?哪些公司可以脫穎而出? 02國(guó)產(chǎn)AI芯片進(jìn)展幾何? 中國(guó)主要的AI芯片公司有寒武紀(jì)、華為昇騰、海光信息、沐曦科技、壁仞科技、燧原科技、天數(shù)智芯等,隨著AI應(yīng)用的普及和成效開(kāi)始凸顯,國(guó)產(chǎn)AI芯片正迎來(lái)全面爆發(fā)和增長(zhǎng),多家AI芯片獨(dú)角獸也將慢慢浮出水面。 寒武紀(jì) 在云端產(chǎn)品線,寒武紀(jì)已經(jīng)推出了四代芯片產(chǎn)品,分別為:思元100、思元270、思元290(車載)以及思元370系列,用以支撐在云計(jì)算和數(shù)據(jù)中心場(chǎng)景下復(fù)雜度和數(shù)據(jù)吞吐量高速增長(zhǎng)的人工智能處理任務(wù)。此外,寒武紀(jì)還有一款在研產(chǎn)品思元590,尚未正式發(fā)布,并且最有看頭的便是寒武紀(jì)的思元590。 該芯片采用MLUarch05全新架構(gòu),實(shí)測(cè)訓(xùn)練性能較在售旗艦產(chǎn)品思元290系列有大幅提升,有望成為國(guó)產(chǎn)先進(jìn)AI算力芯片。據(jù)悉,思元590整體算力綜合性能大約是A100的70%,其有望在部分場(chǎng)景替代英偉達(dá)A100。 不過(guò),思元590的指令兼容性相對(duì)較差,后續(xù)可能影響部署。值得注意的是,其下一代產(chǎn)品的性能指標(biāo)大約是A100的1.5倍,但同樣面臨軟件生態(tài)影響,以及供應(yīng)鏈問(wèn)題。 華為昇騰 華為昇騰主要包括昇騰910和昇騰310兩款處理器,采用自家的達(dá)芬奇架構(gòu)。昇騰310主打面向邊緣場(chǎng)景的低功耗AI處理器,昇騰910是一款面向云端和數(shù)據(jù)中心的高性能AI處理器,可以支持超大規(guī)模的AI訓(xùn)練任務(wù),表現(xiàn)十分優(yōu)秀。 據(jù)華為發(fā)布的信息,實(shí)際測(cè)試結(jié)果表明,在算力方面,昇騰910完全達(dá)到了設(shè)計(jì)規(guī)格,即:半精度 (FP16)算力達(dá)到256 Tera-FLOPS,整數(shù)精度 (INT8) 算力達(dá)到512 Tera-OPS,重要的是,達(dá)到規(guī)格算力所需功耗僅310W,明顯低于設(shè)計(jì)規(guī)格的350W。 據(jù)悉,在實(shí)際應(yīng)用過(guò)程中,昇騰910的處理速度比業(yè)界同類產(chǎn)品快80%以上。徐直軍表示,昇騰910 總體技術(shù)表現(xiàn)超出預(yù)期,作為算力最強(qiáng)AI處理器,當(dāng)之無(wú)愧。 不過(guò)昇騰910也有著很大的局限性。昇騰910依賴華為自身軟件生態(tài)、需要華為深度優(yōu)化及代碼移植,通用性相對(duì)要差一些,比如昇騰不能做GPT-3,因?yàn)闀N騰910不支持32位浮點(diǎn),而目前大模型訓(xùn)練幾乎都要使用32位的浮點(diǎn)。 沐曦科技 沐曦公司旗下主要有曦思和曦云兩款A(yù)I芯片,其中曦云MXC系列是該公司研發(fā)的用于AI訓(xùn)練及通用計(jì)算的GPU芯片。 MXC500是沐曦對(duì)標(biāo)A100/A800的算力芯片,F(xiàn)P32浮點(diǎn)性能可達(dá)15TFlops,作為對(duì)比的是A100顯卡FP32 性能19.5 TFLOPS。除了性能接近之外,MXC500的完整軟件棧(MXMACA)還兼容CUDA,預(yù)計(jì)年底規(guī)模出貨。 此外,沐曦的團(tuán)隊(duì)背景經(jīng)驗(yàn)十分豐富,其一些核心人員曾參與AMD的MI100、MI200產(chǎn)品開(kāi)發(fā),這都是AMD目前最主流的GPGPU產(chǎn)品。 海光信息 海光信息是一個(gè)潛力股,拿海光DCU(協(xié)處理器)系列深算一號(hào)和英偉達(dá)的A100、AMD的MI100來(lái)對(duì)比,其很多基本指標(biāo)上都達(dá)到國(guó)際同類高端產(chǎn)品的水平,雖然在整體性能上依然有明顯差距,但在國(guó)產(chǎn)替代的背景下其實(shí)已經(jīng)相當(dāng)優(yōu)秀,發(fā)展?jié)摿薮蟆?/span> 不過(guò),海光信息若要使用新一代GPGPU架構(gòu)還需要AMD授權(quán),存在迭代問(wèn)題。 壁仞科技 壁仞的BR100 發(fā)布時(shí),憑借其超高的參數(shù)與性能引起了強(qiáng)烈的轟動(dòng)。 參數(shù)方面,BR100系列基于7nm制程工藝打造,擁有770億個(gè)晶體管。由壁仞科技自主原創(chuàng)的芯片架構(gòu)開(kāi)發(fā),采用Chiplet(芯粒)、2.5D CoWoS等先進(jìn)的設(shè)計(jì)、制造與封裝技術(shù),可搭配64GB HBM 2E顯存,超300MB片上緩存,支持PCIe 5.0、CXL互聯(lián)協(xié)議等。 性能是BR100最具亮點(diǎn)的地方,擁有1024 TOPS INT8,512 TFLOPS BF16、256 TFLOPS TF32+、128 TFLOPS FP32,可實(shí)現(xiàn)2.3TB/s的外部I/O帶寬,支持64路編碼、512路解碼等,號(hào)稱在FP32(單精度浮點(diǎn))、INT8(整數(shù),常用于人工智能推理)等維度,均超越了國(guó)際廠商最新旗艦。 BR100 系列通用 GPU 芯片支持云端訓(xùn)練和推理,目前已經(jīng)到了收尾階段,預(yù)計(jì)將在今年流片。壁仞科技的第二款芯片已經(jīng)開(kāi)始啟動(dòng)架構(gòu)設(shè)計(jì),之后壁仞科技還將逐步推出面向智算中心、云游戲、邊緣計(jì)算的GPU芯片。 不過(guò),BR100還未有產(chǎn)品出來(lái),其參數(shù)至今停留在實(shí)驗(yàn)室階段,屆時(shí)商用實(shí)測(cè)性能難以衡量。 阿里平頭哥 阿里的AI芯片,與GPU架構(gòu)有著很大的不同,因?yàn)樗麄冏龅耐耆腔贏I算法優(yōu)化的架構(gòu)。 阿里曾表示,含光800是當(dāng)時(shí)全球最強(qiáng)的AI芯片,性能和能效比均為第一,1顆含光800的算力相當(dāng)于10顆GPU。 含光800芯片在業(yè)界標(biāo)準(zhǔn)的ResNet-50測(cè)試中,推理性能達(dá)到78563 IPS,比目前業(yè)界最好的AI芯片性能高4倍;能效比500 IPS/W,是第二名的3.3倍。 在業(yè)界,平頭哥發(fā)布的這款芯片也很被看好。 燧原科技 燧原科技,是少有的云端AI芯片創(chuàng)業(yè)公司,其完成對(duì)AI 訓(xùn)練芯片的二次迭代,僅用了三年時(shí)間,主要產(chǎn)品是“邃思”。 據(jù)介紹,燧原科技發(fā)布的邃思2.0的尺寸達(dá)到57.5毫米×57.5毫米(面積為3306mm2),達(dá)到了日月光2.5D封裝的極限,與上代產(chǎn)品一樣采用格羅方德12nm FinFET工藝,內(nèi)部共整合9顆芯片,單精度FP32算力為40TFLOPS,單精度張量TF32算力為160TFLOPS,整數(shù)精度INT8算力為320TOPS。相比之下,英偉達(dá)基于Ampere架構(gòu)的A100 GPU的單精度浮點(diǎn)計(jì)算能力僅為19.5TFLOPS。 昆侖芯 百度昆侖芯片是百度自主研發(fā)的云端AI通用芯片。在2018年7月舉辦的百度AI開(kāi)發(fā)者大會(huì)上,百度公司董事長(zhǎng)兼CEO李彥宏正式宣布,百度自研AI 芯片命名為昆侖。百度昆侖1于2019 年成功流片,采用三星14nm制程工藝,目前量產(chǎn)超過(guò)2萬(wàn)片,在百度搜索引擎和百度智能云生態(tài)伙伴等場(chǎng)景廣泛部署。百度昆侖2于2021年下半年實(shí)現(xiàn)量產(chǎn),采用7nm先進(jìn)工藝,其性能比百度昆侖1再提升3倍。據(jù)悉,百度正計(jì)劃在年底做第三款昆侖芯片。 天數(shù)智芯 天數(shù)智芯主要包括天垓100和智鎧100兩款A(yù)I芯片,天垓100是一款基于 GPGPU 架構(gòu)芯片的高性能云端通用并行計(jì)算卡,據(jù)介紹,天垓100從底層硬件到上層軟件都是獨(dú)立設(shè)計(jì)開(kāi)發(fā),不走購(gòu)買國(guó)外GPU IP的捷徑,確保了完全自主知識(shí)產(chǎn)權(quán)。隨后天數(shù)智芯又發(fā)布了其第二款產(chǎn)品“智鎧100”,這款芯片被譽(yù)為“鎮(zhèn)館之寶”,吸引了眾多行業(yè)用戶的關(guān)注。 天數(shù)智芯GPGPU計(jì)算芯片主要針對(duì)云端AI訓(xùn)練+推理和云端通用計(jì)算,是國(guó)內(nèi)難得的兼容CUDA等異構(gòu)計(jì)算生態(tài)的數(shù)據(jù)中心高端計(jì)算芯片。 03只靠算力,無(wú)法做英偉達(dá)的PlanB 英偉達(dá)的強(qiáng)不只是體現(xiàn)在硬件產(chǎn)品上,在軟件平臺(tái)中,英偉達(dá)也有自己的護(hù)城河。 CUDA就是英偉達(dá)推出的基于GPU的并行計(jì)算平臺(tái)和編程模型,可以用來(lái)加速大規(guī)模數(shù)據(jù)并行計(jì)算,使得GPU可以用于更加廣泛的科學(xué)計(jì)算和工程計(jì)算等領(lǐng)域。CUDA的良好生態(tài)系統(tǒng)吸引了眾多學(xué)術(shù)機(jī)構(gòu)和高性能計(jì)算中心的關(guān)注和使用,也為英偉達(dá)提供了強(qiáng)有力的市場(chǎng)競(jìng)爭(zhēng)優(yōu)勢(shì)?,F(xiàn)在AMD也在做同樣的事情,只是英偉達(dá)已經(jīng)占了先發(fā)優(yōu)勢(shì),AMD搭建起來(lái)可能會(huì)更為艱難。 CUDA的重要性不言而喻,但是提供CUDA兼容層,需要廠商具備足夠的研發(fā)實(shí)力,上文提到的與CUDA兼容的有沐曦、海光、壁仞、天數(shù)智芯等公司,因此是否兼容CUDA也成為衡量AI芯片公司的標(biāo)的之一。 至于是否一定要兼容CUDA,業(yè)界有著不同見(jiàn)解。專家稱,在小模型上CUDA仍然很重要,但在大模型上它的地位越來(lái)越輕了。如果未來(lái)中國(guó)市場(chǎng)以小模型為主,那CUDA還是有很大的影響力,而如果是以大模型為主,對(duì)于CUDA的依賴就越來(lái)越小了。 總而言之,重視軟件配適開(kāi)發(fā)至關(guān)重要。 對(duì)于建立國(guó)產(chǎn)IT系統(tǒng)的行動(dòng)建議包括:設(shè)置合理國(guó)產(chǎn)系統(tǒng)及芯片性能要求和驗(yàn)證目的,從非關(guān)鍵應(yīng)用開(kāi)始嘗試導(dǎo)入部分國(guó)產(chǎn)芯片;加強(qiáng)軟件配適開(kāi)發(fā),確保軟件對(duì)不同系統(tǒng)的兼容性、穩(wěn)定性和運(yùn)營(yíng)性能;建立加強(qiáng)對(duì)國(guó)內(nèi)基礎(chǔ)IT軟硬件廠商的投資,確保廠商對(duì)產(chǎn)品開(kāi)發(fā)計(jì)劃的影響力;優(yōu)先考慮國(guó)內(nèi)供應(yīng)鏈和成熟平臺(tái),積極采用半導(dǎo)體創(chuàng)新技術(shù)。 04未來(lái)與英偉達(dá)的差距定然會(huì)逐步縮小 目前芯片已經(jīng)成為半導(dǎo)體行業(yè)中最具有發(fā)展?jié)摿Φ念I(lǐng)域之一,AI芯片作為推動(dòng)芯片行業(yè)發(fā)展的核心市場(chǎng),其行業(yè)價(jià)值無(wú)法估計(jì),隨著AI芯片技術(shù)的逐漸成熟,其應(yīng)用場(chǎng)景逐步滲透到各類智能終端領(lǐng)域中,在我國(guó)科技發(fā)展中占據(jù)越來(lái)越重要的地位。 根據(jù)Gartner的數(shù)據(jù),在目前全球半導(dǎo)體產(chǎn)業(yè)中,中國(guó)GPU的全球市場(chǎng)占比規(guī)模僅1%。2022年,在全球6000億美元的半導(dǎo)體采購(gòu)中,中國(guó)企業(yè)的芯片采購(gòu)規(guī)模達(dá)到1490億美元,占到四分之一;跨國(guó)企業(yè)的中國(guó)工廠芯片采購(gòu)規(guī)模達(dá)到2130億美元,占比35%。 中國(guó)的芯片產(chǎn)業(yè)還有著巨大的發(fā)展?jié)摿?。未?lái),中國(guó)芯片產(chǎn)業(yè)將繼續(xù)加大投資,國(guó)內(nèi)企業(yè)與英偉達(dá)的距離也一定會(huì)逐步縮小。 注:轉(zhuǎn)自半導(dǎo)體產(chǎn)業(yè)縱橫 |
Copyright ? 2018 津鹿信息科技(上海)有限公司 版權(quán)所有
滬ICP備2023018179號(hào)