制造AI定制芯片——这个酝酿了三十年的想法,在硅谷初创企业Gyrfalcon Technology Inc.(GTI)的手中变成现实。GTI获得了三星等大客户的青睐,正在迅速打造属于自己的多款芯片产品。
30年前,加州大学伯克利分校的博士生杨林想研发出一种特制芯片,能够加快人工智能(AI)的运算速度。
这个念头开启了他长达三十多年的研究生涯。
当年一些具有洞察力的想法如今变成了现实,与此同时,杨博士作为,科学家创立的初创公司GTI野心勃勃,不断发展,专注于打造与众不同的AI芯片,以期在竞争日益激烈的芯片市场独占鳌头。
2017年初建立的GTI总部位于苗比达市,处于硅谷的边缘地带。GTI正在一步步实现杨博士在30年前的绝妙想法:同步运算矩阵乘法的相同电路矩阵,从而加快神经网络的基本运算。
“我们是,一家将矩阵乘法作为基本运算元素后取得实质性进展的公司。”接受ZDNet专访的GTI总裁Franck Lin(林建国)如是说。
林建国清楚地认识到众多初创企业都拥有新型AI半导体设计,比如ZDNet近日报道的Cornami、Flex Logix与Efinix等产品。
“有些芯片制造商正在思考matrix或tensor的新型架构。”林建国说,而GTI在一月份推出了第、硅芯片产品。“谈到真正的芯片,我觉得我们是市场上,一家真正的硅芯制造商。”
三星电子、LG电子、富士通等一些大体量客户确信,GTI会提供他们需要的产品。
“刚开始我们只有七个人。”GTI营销总监Marc Naddell补充道。“想象一下,一小撮人在创业最开始的八个月里致力于、芯片的研发。”Naddell与林建国强调,GTI是三星的,AI芯片合作伙伴。
“我们的第、芯片大获成功,因此像我们这样历史短、规模小的公司能够赢得三星等大品牌的青睐。”他说道。
GTI产品致胜的关键在于其具备,的能效,在性能方面胜过英特尔传统,处理器(CPU)与Nvidia图形处理器(GPU)。“我们就是对抗歌利亚的大卫。”林建国说。
大卫对抗歌利亚
备注:大卫与巨人哥利亚的决斗是一个,的西方典故,意为以弱胜强。《圣经》中记载,歌利亚是非利士将军,带兵进攻以色列军队,后被牧童大卫打败。大卫日后统一以色列,成为,的大卫王。
GTI的产品正在向品牌化方向发展时,“Lightspeeur”以“2801”芯片为起点,在今年国际消费类电子产品展览会(ConsumerElectronicsShow CES)上亮相。“Lightspeeur”是一种用于“推理(inference)”的零件,而“推理”是机器学习的组成部分,神经网络利用训练阶段习得的信息为新出现的问题提供解决方案。该零件适用于“边缘”设备,如智能手机、智能扬声器或笔记本电脑。
国际消费电子展(CES)是世界,的消费类电子产品展会
GTI指出,一种称为“存储计算一体化”(APiM)的方法,让所有相同的运算单元与存储融为一体,可大大降低外存储器的利用率,从而大幅降低AI芯片的功率预算。
“2801”的运算速度可达到每秒9.3万亿次,仅耗能1瓦特,且每一次都是乘法累加运算。如今,这样“万亿次/每秒”(TOPS)的计算单位是AI芯片能耗常见的表示方法。
它“比英特尔Movidius产品的能效高90%”,林建国在谈到英特尔收购同名公司Movidius时获得的推理芯片时如是说。
GTI第一代芯片Lightspeeur®2801S
继“2801”后出现的“2803”于上月面世,旨在处理云服务器更加繁重的推理负载。其性能更佳,能效更好,耗能1瓦特时,计算速度高达24 TOPS。GTI表示,“2803”不仅适用于推理,还可用于训练,利用一种技术优化“马尔科夫链蒙特卡洛”(Markov Chain Monte Carlo)网络,替代更为常见的随机梯度下降(Stochastic gradient descent,SGD)。
“2801”与“2803”都可以在电路板上联结,并且通过外部设备高速扩展总线(PCI-E)作为插件同时运行。两者均拥有嵌入式存储器,“2801”可存储9兆字节。紧邻所有运算单位的存储器,使芯片能够承担几乎所有的推理工作,无需芯片外设DRAM。GTI将其称为“存储计算一体化”或“APiM”。
“我可以一次性地将网络模型、权重与激活单元预加载到这款芯片上。”林建国说,“无需求助外部系统;这样做能够明显降低能耗,大幅提升芯片的性能。”
本月,GTI透露了下一产品的部分信息。该产品主要用于“物联网”领域,直到下个月才会正式发布。这个,产品名为“2802”,提供了另一项有趣的技术:非易失性存储器(Non-volatile memory, NVM)。
“2802”以“磁性”随机存储器(MRAM)替代了“2801”与“2803”运用的静态随机存取存储器(SRAM)。与NAND快闪存储器相似,MRAM在能量耗尽时不会丢失数据。这意味着一套神经网络可由客户进行预加载,甚至可以在“2802”出厂前由原厂预加载。
GTI在乘法累加运算(Multiply Accumulate, MAC)的同一套模具上制造MRAM,该方法是GTI正在申请的五十个专利之一。快速搜索美国专利局的申请数据库和授予专利,可迅速了解 GTI技术的具体情况。1992年,伯克利分校凭借杨博士及其导师Leon Chua的芯片发明获得了一项专利。碰巧的是,Chua在该领域的大量研究可应用于多项领域,包括Chua在1998年出版的专著《细胞神经网络:复杂性的典范》(CNN:A Paradigm for Complexity)
当然,困难之处在于软件。与CPU和GPU不同,GTI的专用集成电路(ASIC)难以获得编程栈。
对比:GTI的Lightspeeur与英特尔和Nvidia芯片在AI处理上的差别
因此,刚刚发布了一个,软件开发工具包(SDK),为产品打造应用程序。该开发工具可在两个硬件配件上进行测试,即USB加密锁“PLAI Plug”与独立设备“PLAIWiFi”,后者可作为手机的无线加速工具。
GTI按照杨博士在伯克利制定的路线不断发展,已经迈出了似乎有风险的一步:正在卷积神经网络(CNN)上铺设自己的电路。虽然那时杨博士使用的是“细胞神经网络”(“cellular neural networks, CNN”,Gyrfalcon依然在专利申请文件中使用该术语)这样的模型,但其具有,性的研究工作围绕卷积运算展开。
当然,卷积神经网络在近几年来成为了最重要的神经网络设计之一,但这一做法让芯片不太适用于其他类型的网络,如“长短期记忆”网络。
不过,林建国并未对理论上的局限性忧心忡忡。
“CNN是所有其他AI的基础。”他说。“对此,我们做了研究,发现ResNet和MobileNet在CNN市场中依然占主导地位。”林建国说,其他初创公司正在试图进军每一种网络,“他们试图覆盖所有现存及未来的神经网络,但我还没有发现任何一家公司能够成功地兼顾全面性与能效性。”
如果新型网络出现,占据了大部分的市场份额,“那我们就会针对它推出另外、芯片。”他说。
一个很有意思的想法是,(如果)按照生产曲线看一看GTI在发展时发生了什么,是什么使其电路更加高效,GTI的初代产品由台湾半导体制造商28纳米制造工艺完成,与英特尔和Nvidia的,产品相比,该工艺运用的节点更为陈旧。
“我们正在用28纳米的工艺击败正在使用7纳米或12纳米的同行,比如Nvidia。”林建国说。“我们是如同以卵击石的反叛者,但我们赢了!”
Marc Naddell,这位GTI的营销总监补充道:“当我们采用12纳米或7纳米的工艺时,其他公司将会做什么呢?”
GTI的另一条发展途径就是将自主研发的芯片授权给其他AI芯片制造商。林建国目前的工作,并没有放在这上面,但他看到许多潜力。“Graphcore等其他初创公司做的东西与我们极其相似,但如果他们想做大,就必须找我们。”
根据,数据,Graphcore筹措到的金额超过1亿美元。资金支持对芯片初创企业至关重要,因为一家公司从设计到芯片的初步“流片”,再到开发和维护客户基础,平均需要投入数亿美元。
GTI没有向记者透露公司筹集到的资金数额,但他们表示,他们已经“从美国、日本、韩国、中国的机构与企业投资者手中获得三轮融资”,并补充道:“就目前的员工配置与支出率来说,筹措的资金可供公司运营至少三年时间。