计较机架构的新黄金时代,为什么到了2021年还没有开始?

一面是客观的技能差距,一面是无法忽视的时机。 4 月 21 日,英伟达宣布了 A30 和 A10 GPU 系列 GPU,其安培(Ampere)架构、最新制程的机能和软硬件体系加持,为浩瀚科技公司在 AI 推理和练习时带来了新的选择。该

一面是客观的技能差距,一面是无法忽视的时机。

4 月 21 日,英伟达宣布了 A30 和 A10 GPU 系列 GPU,其安培(Ampere)架构、最新制程的机能和软硬件体系加持,为浩瀚科技公司在 AI 推理和练习时带来了新的选择。该公司估量在本年夏季,新款芯片即将会呈此刻浩瀚公司的云处事器中。

对付熟悉呆板进修规模的人们来说,每隔一两年推出的新一代 GPU,是他们最为存眷的新动向。英伟达的旗舰芯片算力也老是其它芯片创业公司用来较量的标杆。

但对那些但愿寻找人工智能最符合算力的研究者们来说,GPU 因为「过于通用」,经常会遭认为并非 AI 的最终办理方案。但迄今为止,英伟达 GPU 仍然占据市场的主流。在 GPU 引领深度进修技能发作之后,AI 芯片规模还会呈现新的变革吗?

和 AI 算法应该怎么写一样,人们对付芯片应该怎么造的思考其实一直都没有遏制,芯片规模里下一个大偏向大概在于「特定规模的体系布局(DSA)」。

计较机架构传奇人物、2017 年图灵奖得到者 John Hennessy 和 David Patterson 在 2019 年颁发于 ACM 杂志上的文章《计较机架构的新黄金时代》中曾提出:当摩尔定律不再合用之后,一种越发以硬件为中心的设计思路——针对特定问题和规模的架构 DSA 将会揭示实力。这是一种特定规模的可编程处理惩罚器,它仍是图灵完备的,但针对特定类此外应用举办了定制。

John L. Hennessy 和 David A. Patterson,两人合著有《计较机体系布局:量化研究要领》一书。

从界说上来看,DSA 与专用集成电路 ASIC 差异,后者仅合用于单一成果,运行其上的代码很难举办修改。DSA 板卡凡是遭称为加快器,因为与在通用 CPU 上执行整个应用措施对比,它们可以加快某些应用措施。另外,DSA 可以实现更好的机能,因为它们更贴近应用的实际需求。DSA 的例子包罗最常见的图形加快单位(即 GPU),用于深度进修的神经网络处理惩罚器,以及软件界说处理惩罚器(SDN)。在特定规模的应用中,DSA 的效率更高,能耗更低。

凡是,合用于 AI 推理的 DSA 处理惩罚器无法应用于高机能通用计较、光泽渲染等任务,但又不像 ASIC 那样只能胜任很少的一些固化算法任务。在人工智能的任务上,DPU 芯片可以有很高的通用性,既支持 NLP,又支持计较机视觉和语音的任务处理惩罚,还可以通过 TVM 等东西包围各类呆板进修框架。

假如说体系架构大家展望的技能方案是 DSA 创立的充实条件,那么科技公司对付 AI 算力的需求就是 DSA 芯片形成打破的须要因素。

今朝,想要通过各类要领来构建一块 GPU,与英伟达实现相似的机能仍然很是坚苦。但在以数据中心为焦点的互联网新时代,海内头部互联网公司的局限为整个行业带来了前所未有的 AI 落地场景。假如可以或许精确找到落地需求,构建高效的 AI 加快器,,不只可以大幅晋升呆板进修的代价,或者还能催生出潜在的新市场。

在这种环境下,可以或许搞清应用偏向就成为了 DSA 可否乐成的要害。如今科技公司需要深度进修揣度的业务包罗推荐系统、内容审核、AI 教诲、人工智能客服、图文翻译等各类方面。环绕这些业务,所有互联网厂商都发生了大量算力需求。

对付一家半导体公司来说,要想打造一块可以或许完成这些任务的芯片,其设计要切合客户应用场景、底层需求,具备高效的实现方法,融易资讯网()动静 ,同时也要在交付本钱、维护处事、更新迭代的速度、软件友好的水平,甚至销售计策上具备竞争力。

体系布局之外,另一个契机在于指令集,RISC-V 鼓起也在让芯片规模产生着变革,它的模块化和可扩展性完美地匹配 DSA 机动高效的技能需求。

降生于 2010 年的 RISC-V 是一个开源的精简指令集架构,合用于建设微处理惩罚器和微节制器。最早由美国加州大学伯克利分校(UC Berkeley)的 Krste Asanovic 传授、Andrew Waterman 和 Yunsup Lee 等开拓人员于 2010 年提出,又获得了计较机体系布局大家 David Patterson 的支持。这个架构答允开拓者免费开拓和利用,包罗直接在芯片长举办贸易化实现。

本年 1 月,外媒报道称顶级芯片设计大家 Jim Keller 插手了初创公司 Tenstorrent,接受 CTO 以及董事会成员。

据相识,Tenstorrent 设计的是高机能 AI 练习和推理,异构架构 AI SoC。该公司设计了针对呆板进修优化的 Tensix 处理惩罚器内核,为了运行传统的事情负载,Tenstorrent 的 SoC 利用 SiFive 的新型通用智能 X280 内核,而 X280 是一个 64 位的 RISC-V 内核,集成了 512 位宽的 RISC-V 矢量指令扩展(RVV)。

上一篇:久隆财险因两项违法行为被罚72万:未凭据划定利用经存案的保险费率等
下一篇:马斯克喜提110亿美元,但特斯拉本年的好日子也就到这了