中昊芯英创始人杨龚轶凡: 模型逐步收敛, CUDA 价值呈现下降趋势

在智猩猩联合主办的2025中国AI算力大会上,中昊芯英创始人及CEO杨龚轶凡围绕《从GPU 到 TPU,同等制程3-5倍性能跃升的 AI 芯片演进之路》这一主题在主会场高峰论坛带来了主题演讲。

要点提炼:

没有人能够说自己一两年就可以做到量产很大、可以用的芯片,没有10年的积累是做不到的。

中昊芯英当期的 TPU 芯片产品用于AI计算场景时算力性能超越海外知名GPU芯片近 1.5 倍,能耗降低 30%,公司很快将推出第二代性能更强大的TPU AI 芯片产品。

TPU的发展有两个方向,一个是单芯片的性能,另一个是集群性能。

今天和未来,所有跟AI芯片关联的设计理念,都需要考虑如何实现高效的网络互联。

TPU在网络架构中实现了二维环2D Torus,当然还有更先进的3D Torus,这是其在片间网络上的创新。

MoE(Mixture of Experts,混合专家模型,是一种机器学习方法)已经成了标配,大模型里如果没有MoE,是没有价值的。

因为大模型对计算和带宽的需求,今天大家在运行大模型服务的时候,都在用H100、H200,大模型的训练和推理是一块芯片,分离不了,除非有新的路线和创新出现,未来推理芯片和训练芯片才会有逐步分化

随着模型的逐步收敛,CUDA的价值在逐步降低。

数据的重要性逐步上升,未来是否有合规的行业数据,可能会成为企业的核心竞争力。

演讲全文:

杨龚轶凡:大家好,我今天分享的主题是《从GPU到TPU,同等制程3-5倍性能跃升的AI芯片演进之路》。接下来,我将主要和大家分享中昊芯英从2018年我们回国落地到今天将近7年时间,对行业的核心思考,以及最近AI大模型产业快速变迁的过程中,未来我们要支持什么,以及为什么我们今天需要AI专用芯片。

首先做个简单的介绍,我从2011年斯坦福毕业之后,就一直在美国甲骨文做高性能CPU。到2017年的时候发现摩尔定律在生产制程的迭代过程中在逐步减缓,所以我们认为继续做通用计算的意义不太大,未来肯定会有一些新的方向去迭代整个计算领域。

2017年的时候我们认为AI浪潮来了,所以当时甲骨文整个做CPU的团都去做各种各样的AI芯片,比如美国比较有名的SambaNova等。而我们团队则去了谷歌,开创了TPU这个方向。

在谷歌TPU 2/3/4实践落地的过程中,我们完成了著名的Transformer模型的落地。它的Attention和MatMul是基于TPU硬件特性优化开发的。

有了Transformer的实践落地,我们认为AGI实现的可能性大幅度提升。2017年的时候我们预计24、25甚至26年的时候,AGI大概率会落地,我们可以逐步实现真正的人工智能,AI将进而成为整个人类社会的生产力核心。

基于这种对AI 的信念,我们决定投身于做TPU类似方向的AI芯片设计研发和产业落地。我们相信未来算力会成为整个产业的核心,这个方向将重构和迭代整个计算的可能性,因此我们成立了中昊芯英。

从2018年开始,我们已经能够看到整个人工智能需求的变化,再到今天随着ChatGPT和国产DeepSeek的出现,大家在生活中已经开始使用大模型去完成各种各样的任务。

在工作当中,无论国际还是国内,我们看到变化最大的领域其实就是写程序。在美国很多知名的公司中,90%的简单程序已经在使用大模型自动生成,并且已经在改变人机交互的方式,以及传统程序员的工程实现方式。

在国内,包括我们公司在内,目前大概20%-40%的程序是由大模型来完成书写,以及进行找bug。

相信未来三年左右,程序员实际的写程序能力都将被迭代成综合解决方案能力,解决方案可以由大模型去逐步去实现。在这个过程中,AI已经对各种各样的产业产生了深远的影响。

这只是一个行业案例。在过去1-2年左右,我们也在各个行业看到了AI的落地。只是说在程序员替代的过程中落地实践最快。因为做大模型的所有玩家,实际的工作人员就是程序员,程序员最理解程序员的需求,所以程序员的替代是最快的。

相信其他行业也将逐步跟上,未来3-5年,甚至最多10年内,我们将迎来新一波人工智能浪潮,或者说新一波工业浪潮,并将重新定义很多工作岗位。

随着新的工作岗位的定义,和AI落地实践的逐步爆发,可以看到整个市场正在快速增长。今年中国AIGC的市场,包括算力市场的预期在内,已经超过2000亿人民币。

从国际上来说,AI市场规模其实更大。在过去一年,我们看到国内算力芯片的需求量在800亿人民币左右,而国际的需求量大概在800-1000亿美金。

01 大模型推动计算Infra变革

随着模型的迭代,尤其是新的模型迭代,它的算力消耗是非常高的。完成一次模型的训练和推理的算力值都极高,已经达到1025甚至更高。

推理过程也跟以前产生了很大的区别,这就是刚才说为什么新的计算范式会用新的模型去定义和重构的原因,传统计算的Infra为什么在新的领域不能用,核心点就在这里,当模型越来越大之后,它已经在颠覆了传统的计算方式。

传统的计算方式就像是我们拿出一个手机,你可以同时用很多应用。什么概念呢?小小的一块芯片无论它是5nm还是10nm,跑的都是多个应用。今天大模型变大之后,发现一个很有趣的现象,现在一个算法、一个模型、一个应用,即使是简单跑个推理,4块芯片都不够用。

我们知道模型有history,有token length,token length越长代表模型的记忆力越好。现在的模型已经从之前的几千的token length到现在的10万甚至百万级别,这个过程也意味着其对内存和计算的挑战非常大。一些大模型,已经开始用8卡甚至多机互连的方式,才能完成推理。

几年前,训练Yolo这类小模型,使用一个机器、或者最多两个机器,只需要16卡就可以完成,但是今天的大模型千卡都不够。没有任何一个做预训练的玩家会说,我有千卡的H100/B200,或者千卡的国产芯片就能够完成任何有价值的模型训练,这是不可能的,因为需要的是万卡集群。

所以我们看到整个计算的Infra都在迭代,在迭代过程中我们就需要有创新。比如我们中昊芯英在芯片层面有创新,更多的合作伙伴在系统、应用上有创新,这是AI对整个计算领域的迭代和需求。

02 AI专用芯片是AI Infra的必然发展趋势

随着创新的出现,我们认为芯片本身也有创新的机会。回看计算芯片的发展历史的时候,我们可以看到芯片的架构总是从通用向专用型去发展。为什么会这样发展呢?

首先专用型芯片开销非常高,特别是今天把软件栈的开销也算进去之后。之前一块12nm的芯片,把芯片做出来实际投入大概在1.5亿人民币,做到量产并且把软件栈的开销全部算进去,大概3亿人民币,也就是5000万美金,这个我觉得国际上大家相互之间是认可的。一块7nm的芯片需要8000万美金,再往下走的话,需要上亿美金才能完成一块芯片从零到量产的过程。这么大的资金投入,如果产品对应的市场不够大,就没有价值,投资产出比是不够的。

所以在行业早期的时候,一般都是通用器件去适应新行业的出现。只有当行业规模足够大、足够有价值的时候,才会逐步去定义新的架构和微架构的芯片。因为定义新的架构和微架构,能够提高芯片的计算效率,提升性价比。

一个很简单的直观体验,如果用通用器件来完成一个模型训练,投入成本是按亿美金来计算,而如果使用专用器件,可以将投入成本降到千万级,这就是它的核心优势。

无论是国内还是国际上,整个AI Infra的需求非常大,已经是百亿人民币到千亿美金的量级。所以这个时候,新的AI芯片已经成为了整个产业的开发方向。

上图我列举了ISSCC、ISCA和HotChips历年来AI相关的论文占比。不管是学术届还是产业界,ISSCC、ISCA和HotChips都是顶会的标准。它们不仅包含了前面提到的大芯片或者数据中心芯片,而且包括所有的芯片技术,从物理底层技术到微架构,涵盖手机芯片、蓝牙芯片等,所有的芯片设计都可以去发顶会。我们发现AI的比例越来越高,去年综合下来接近30%的论文都和AI相关。

通过这个数据,我们可以看到整个行业的发展趋势,这个赛道正在逐步从CPU、GPU这类通用器件往定制化器件路径发展。我们认为定制路线能够比通用器件至少做到3-5倍,甚至10倍的性能提升。

03 TPU架构比GPU更适合大模型计算

中昊芯英选择了跟谷歌一样的思路——TPU。

做TPU不是一个简单的事情,从0到1的过程需要很长的时间,哪怕是谷歌,他们的TPU也是去年才终于被用到苹果和其他产业的大模型训练中。谷歌从0到1用了很长时间,从1到100用了更长时间。谷歌的TPU从0开始,到去年280万片的芯片量产,这个过程用了整整10年时间。

这也是半导体产业本身不可打破的规律,没有人能够说自己一两年就可以做到量产很大、可以用的芯片,这是不可能的,没有10年的积累是做不到的。中昊芯英也是花了5年的时间,把一块芯片从0到1并实现量产,在去年开始实现硬件生态的打造和软件生态的适配。

今年我们能够自豪的说,在大部分模型的实测过程中,我们已经能用比海外领先的GPU芯片低一个量级的生产制程,实现1.5倍性能提升的同时,将功耗降低到75%。

此外,我们也定义了新的集群连接方式,能够支持千卡集群内1024片芯片直接光模块高速片间互联,并且有了千卡集群的落地实践,同时还在行业中完成了大模型训练和推理的落地。

在这个过程中,我们也积累了一些经验,和大家分享下在新的模型和芯片设计方向上,我们的思考和收获。

前面提到芯片设计要花费很长时间,中昊芯英从2018年发展到现在近7年时间,已经逐步开始下一代芯片的迭代。中昊芯英当期迭代的芯片“刹那®”用于AI计算场景时,算力性能超越海外知名GPU芯片近 1.5 倍,能耗降低 30%。我们的第二代性能更强大的TPU AI 芯片产品已经在研发的最后阶段,很快就会面向市场推出。

自研芯片的核心价值在于,有了自己设计的TPU之后,所有的IP没有外购,全部国产自主可控,这样就有了迭代的能力,并知道未来迭代的方向。

TPU的发展有两个方向,一个是单芯片的性能,另一个是集群性能。为什么要分这两个方向呢?刚才提到一个模型现在需要千卡甚至万卡才能完成训练,推理也是16卡到32卡的阶段。

比如DeepSeek-R1的满血版,真正看性能的话会发现,不管国产芯片产品还是国外芯片产品,至少16卡是标配,很多能跑性能的是24卡到32卡,因此其片间互联能力会成为架构的核心痛点。

今天和未来,所有跟AI芯片关联的设计理念,都需要考虑如何实现高效的网络互联。这里包含两个方面,一方面是芯片内部的定义,另一方面是芯片间的网络怎么构建。因为现在芯片的使用方式跟传统的计算方式是有很大区别的。

比如传统的CPU也好,大家用的手机也好,其网络架构的一个核心思路,是流量是可以分时进行分享的,就像今天会场的所有人不会同时全部只使用一个手机APP。一个交换机可以接很多人,交换机的链路带宽需求不是所有玩家需求的总和,它是可以做 directing 的。

但是AI的计算过程是不同的。如果用1000张卡来训练,他们会同时开启,同时结束,同时需要数据交互,所以传统的网络架构其实是不适合的。我们在实践中发现事实也是这样的。

因此,我们在网络架构中实现了二维环2D Torus,当然还有更先进的3D Torus,这是我们在片间网络上的创新。

片内的设计我们做了哪些创新呢?当我们把传统的GPU和CPU分开看,来研究它们的能耗分布,一个很有趣的现象是,大家本来认为CPU、GPU应该是计算导向型的器件,但实际上它的能耗里超过40%用于控制,计算和数据的能耗占比反而不够高。

所以在设计TPU的时候,我们刻意把“控制”的这个这部分进行了降低和重调,让计算和数据的读取、搬运成为能耗的主要贡献者。但这里也有一个坏处,就是降低了它的灵活性,所以TPU核心的AI芯片灵活性是不如GPU的。

04 TPU驱动软件栈变革

这里又回到另一个问题,到底是软件定义硬件还是硬件定义软件?这也是历史争论,我们今天也没法给出答案。但是从我们的工程实践来看,二者是相互促进的。因为有了像TPU这样灵活性不如GPU,但是性价比和性能比GPU更强的芯片,所以软件栈也发生了新的变革。

举一个简单的例子。为什么有段时间MoE会出现?MoE其实是谷歌提出来的,因为TPU的灵活性不如GPU,GPU的模型可以变各种各样的造型,TPU做不到怎么办?

TPU的并行能力比GPU强,通过多跑几个模型,然后取一个共识,这样模型的性能也可以提升。所以我们看到硬件的出现也会去影响和改变软件。MoE已经成了标配,大模型里如果没有MoE我们会认为它没有价值。

有了定制化芯片的硬件内部结构和网络拓扑,我们做了一些简单的对比。我们有自己的硬件网络栈,也有完整定义的软件网络栈。

在千卡集群的实测中发现,我们发现中昊芯英的TPU芯片的延时带宽的测试数据,跟特斯拉Dojo的TTPoE工程实践差不多是同一水平,我们已经做到了比传统网络带宽高很多,相比NVLink也已经拉开了一定的优势。

这是我认为AI芯片未来的优势,它的每一个技术方向都会比通用器件和通用的协议要好,这样总体上才能在同样的生产制程、同样的工艺、同样的面积、同样的成本的情况下,实现3倍、5倍甚至10倍的性能提升,降低AI使用的落地成本。

今天AI的使用成本太高了,我们做了很多行业的实际商业落地,发现很多行业的ROI是不合适的。

比如拿671B满血版的DeepSeek模型来替代一部分人工的工作,基本投入400万,但是招一个员工一年也就二三十万的成本,所以ROI很难做到合理。

未来如何让AI以更合理的生产成本落地,核心在于我们如何在各个维度去降低成本。这是我认为未来AI芯片的发展方向。

05 算法定义硬件的时代

虽然刚刚我们提到硬件定义软件已经有案例了,那么软件也会定义硬件。MoE就是一个很好的生产实践,现在的模型都是MoE架构。

另外一个很有意思的现象,就是谷歌研发了TPU,TPU的一大创新点是它里面有Systolic Array(脉动阵列),这进而创造了MatMul这样的计算方式,最后才有了今天所有大模型基础架构的核心算子——Attention。

但是Attention存在的问题是,它在对计算的需求非常大的同时,对存储的要求也极高。我们现在说671B的模型它需要的存储空间,已经不是简单的671B参数量乘以每个参数两个字节的存储量,相当于300多GB的存储需求,现在不是这样了。因为Token length需要知道它的历史,历史越长,存储的东西就越多。因此Attention机制导致671B参数需要的存储空间已经不是300多GB,有可能是3TB,这也是为什么需要这么多芯片的原因。

在这个过程中,软件栈已经在开始研究如何设计不同版本的Attention。比如对于GPU来说最合理、最优化的是Linear Attention,因为GPU的并行化计算能力没有其他AI芯片强,但是灵活性高,这也是Linear Attention的设计思路。而Multi-Head Attention以及其他Attention对AI芯片有更好的适配效果。相信新的Attention机制的出现,也会定义一些新的算子。

同样的,使用了新的强化学习,包括现在的模型蒸馏技术,也会逐步定义AI芯片硬件在推理过程和训练过程中计算的区别。只有在这样的区别真实产生以后,才会逐步实现大模型领域训练芯片和推理芯片的分化。

举个例子,今天大家在运行大模型服务的时候,都在用H100、H200,而训练用的也是H100、H200,那么大家以前说的推理芯片就没有价值了。因为大模型对计算和带宽的需求,导致在今天这个时代,训练和推理是一块芯片,分离不了。只有新的路线和创新出现,未来推理芯片和训练芯片才会有逐步分化的标准,去重新定义核心的方向。

随着新的模型出现及模型的逐步收敛,我们认为CUDA的价值在逐步降低。因为有了新的需求和新的创新点的要求,模型在收敛的过程中,算子的数目会降低,对通用型工具链的需求会降低,这样无论对国产还是国际上的AI芯片,都带来了很好的红利。

刚才我们提到芯片的成本很高,一块7nm的芯片需要一亿美金,但是硬件关联的成本最多不超过2.5亿人民币,剩下大部分开销至少有一半是跟软件栈关联的,甚至更多。

如果现在软件栈已经在收敛,我们不需要开发那么复杂、通用的软件栈的时候,软件栈研发成本和生态构建成本就会降低,这样对AI芯片的市场化和量级就有了很好的突破。

一个很简单的实践论证,就是大模型出来以后谷歌的TPU大规模量产了,需求量增加。前面提到,去年谷歌TPU的生产量是280万片,NVIDIA GPU的生产量大概是400万片,这意味着TPU去年占据了全球超过30%的计算市场份额。这是很难想象的事情,因为在模型还没有收敛、CUDA工具链依然是绝对的桥头堡的时候,谷歌的TPU生产量对比GPU是1:100。

06 AI专用芯片落地迎来窗口期

所以我们可以认识到,随着模型的收敛,AI模型越来越成熟,跟产业的结合越来越深入,落地越来越合理,它的商业价值会逐步提升,AI芯片落地也终于迎来了它的时代。

对于中昊芯英来说,我们进行了产品结构的标准化,实现了完整的千卡集群落地,同时还构建了自己的行业模型。

我们认为未来的计算方式一定是一个基础大模型、一个基础架构。因为现在有了MCP,有了A2A,Agent已经可以训练得非常好,再跟实际行业落地的数据公司进行合作,提供基本的工具链,就能够实现在具体领域的模型落地。

这也给了我们一个新的思考,数据的重要性逐步上升,未来是否有合规的行业数据,可能会成为企业的核心竞争力。

在注重自身芯片研发的同时,中昊芯英还高度重视产学研深度融合,目前,中昊芯英与太极股份、浙江大学开展三方合作,引入基于中昊芯英全自研的TPU架构高性能AI芯片“刹那®”构建的人工智能服务器“泰则®”。该服务器通过强大的计算能力,以及高能效比与良好的兼容性,成功应用于浙江大学的多个科研项目中。

中昊芯英还自研预训练大模型并为细分行业用户提供再训练/推理接口,赋能金融、医疗、传媒、 营销、教育、编程等多行业发展。其中,在金融领域,我们与国内头部金融机构国泰君安共创了“泰则·练气”大模型,这是业界首款适用于金融数据处理的刚性大模型,具备结构化数据分析、作图 、处理、建模等功能。

此外,去年9月,中昊芯英与深圳联通联合启动了广东地区首个全采用国产TPU芯片的高性能AI智算中心,形成训推一体化枢纽,成为中国联通在深圳的核心智算高地的重要组成部分。

在落地实践过程中,我们发现很多应用场景已经实现了早期得拓展与落地了。相信未来两三年之后,大家会在很多行业的实际生产过程中看到大模型作为核心生产力的身影。

在此,我也呼吁在座的所有嘉宾,我们今天进入了一个新的时代,新的时代在改变我们,但不应该只有一部分人受到时代红利的影响,而是能够影响到整个行业,或者说整个国家的所有角落。

所以中昊芯英做了很多商业向善项目,这些商业向善项目并不是简单的捐赠,更多的是把我们对AI未来的预期、世界的预期,带到原来接触不到这些事情的角落里去。让他们也能接触到AI到底是什么,未来会发展成什么样,以及他们对自己的未来应该有什么样的畅想。

所以,我们跟云南当地山区的学校开展合作,对云南当地山村中小学生进行一对一帮扶;跟上海交通大学、浙江大学、杭州电子科技大学等高校达成了战略合作,还构建了人才培养团队等。我们希望在他们年轻的时候,能够有很多自己的想法和观点,最后去支持整个产业的变迁。

以上就是我今天的分享,谢谢大家!