计较机架构的新黄金时代，为什么到了2021年还没有开始？

2021/05/21 次浏览

一面是客观的技能差距，一面是无法忽视的时机。 4 月 21 日，英伟达宣布了 A30 和 A10 GPU 系列 GPU，其安培（Ampere）架构、最新制程的机能和软硬件体系加持，为浩瀚科技公司在 AI 推理和练习时带来了新的选择。该

一面是客观的技能差距，一面是无法忽视的时机。

4 月 21 日，英伟达宣布了 A30 和 A10 GPU 系列 GPU，其安培（Ampere）架构、最新制程的机能和软硬件体系加持，为浩瀚科技公司在 AI 推理和练习时带来了新的选择。该公司估量在本年夏季，新款芯片即将会呈此刻浩瀚公司的云处事器中。

对付熟悉呆板进修规模的人们来说，每隔一两年推出的新一代 GPU，是他们最为存眷的新动向。英伟达的旗舰芯片算力也老是其它芯片创业公司用来较量的标杆。

但对那些但愿寻找人工智能最符合算力的研究者们来说，GPU 因为「过于通用」，经常会遭认为并非 AI 的最终办理方案。但迄今为止，英伟达 GPU 仍然占据市场的主流。在 GPU 引领深度进修技能发作之后，AI 芯片规模还会呈现新的变革吗？

和 AI 算法应该怎么写一样，人们对付芯片应该怎么造的思考其实一直都没有遏制，芯片规模里下一个大偏向大概在于「特定规模的体系布局（DSA）」。

计较机架构传奇人物、2017 年图灵奖得到者 John Hennessy 和 David Patterson 在 2019 年颁发于 ACM 杂志上的文章《计较机架构的新黄金时代》中曾提出：当摩尔定律不再合用之后，一种越发以硬件为中心的设计思路——针对特定问题和规模的架构 DSA 将会揭示实力。这是一种特定规模的可编程处理惩罚器，它仍是图灵完备的，但针对特定类此外应用举办了定制。

John L. Hennessy 和 David A. Patterson，两人合著有《计较机体系布局：量化研究要领》一书。

从界说上来看，DSA 与专用集成电路 ASIC 差异，后者仅合用于单一成果，运行其上的代码很难举办修改。DSA 板卡凡是遭称为加快器，因为与在通用 CPU 上执行整个应用措施对比，它们可以加快某些应用措施。另外，DSA 可以实现更好的机能，因为它们更贴近应用的实际需求。DSA 的例子包罗最常见的图形加快单位（即 GPU），用于深度进修的神经网络处理惩罚器，以及软件界说处理惩罚器（SDN）。在特定规模的应用中，DSA 的效率更高，能耗更低。

凡是，合用于 AI 推理的 DSA 处理惩罚器无法应用于高机能通用计较、光泽渲染等任务，但又不像 ASIC 那样只能胜任很少的一些固化算法任务。在人工智能的任务上，DPU 芯片可以有很高的通用性，既支持 NLP，又支持计较机视觉和语音的任务处理惩罚，还可以通过 TVM 等东西包围各类呆板进修框架。

假如说体系架构大家展望的技能方案是 DSA 创立的充实条件，那么科技公司对付 AI 算力的需求就是 DSA 芯片形成打破的须要因素。

今朝，想要通过各类要领来构建一块 GPU，与英伟达实现相似的机能仍然很是坚苦。但在以数据中心为焦点的互联网新时代，海内头部互联网公司的局限为整个行业带来了前所未有的 AI 落地场景。假如可以或许精确找到落地需求，构建高效的 AI 加快器，，不只可以大幅晋升呆板进修的代价，或者还能催生出潜在的新市场。

在这种环境下，可以或许搞清应用偏向就成为了 DSA 可否乐成的要害。如今科技公司需要深度进修揣度的业务包罗推荐系统、内容审核、AI 教诲、人工智能客服、图文翻译等各类方面。环绕这些业务，所有互联网厂商都发生了大量算力需求。

对付一家半导体公司来说，要想打造一块可以或许完成这些任务的芯片，其设计要切合客户应用场景、底层需求，具备高效的实现方法，融易资讯网（）动静，同时也要在交付本钱、维护处事、更新迭代的速度、软件友好的水平，甚至销售计策上具备竞争力。

体系布局之外，另一个契机在于指令集，RISC-V 鼓起也在让芯片规模产生着变革，它的模块化和可扩展性完美地匹配 DSA 机动高效的技能需求。

降生于 2010 年的 RISC-V 是一个开源的精简指令集架构，合用于建设微处理惩罚器和微节制器。最早由美国加州大学伯克利分校（UC Berkeley）的 Krste Asanovic 传授、Andrew Waterman 和 Yunsup Lee 等开拓人员于 2010 年提出，又获得了计较机体系布局大家 David Patterson 的支持。这个架构答允开拓者免费开拓和利用，包罗直接在芯片长举办贸易化实现。

本年 1 月，外媒报道称顶级芯片设计大家 Jim Keller 插手了初创公司 Tenstorrent，接受 CTO 以及董事会成员。

据相识，Tenstorrent 设计的是高机能 AI 练习和推理，异构架构 AI SoC。该公司设计了针对呆板进修优化的 Tensix 处理惩罚器内核，为了运行传统的事情负载，Tenstorrent 的 SoC 利用 SiFive 的新型通用智能 X280 内核，而 X280 是一个 64 位的 RISC-V 内核，集成了 512 位宽的 RISC-V 矢量指令扩展（RVV）。