News
时间:2025-09-30
一门由TileLang社区主导开发的编程语言,正悄然改变国产GPU的生态格局。
近日,DeepSeek宣布在其新版本中拥抱国产GPU语言TileLang,引发业界广泛关注。作为国产高性能GPU的代表,沐曦曦云C系列产品已率先在这一新兴开源社区获得支持。TileLang项目是由TileLang社区主导开发,旨在简化高性能GPU/CPU内核的开发。它采用Python式语法,让开发者能够专注于提高生产力,而无需牺牲实现最佳性能所需的底层优化。
TileLang作为一种专门用来开发GPU内核的领域专用语言,性能上可以对标国际主流生态。DeepSeek官方推荐开发者使用该版本进行实验性开发,因其在调试便捷性与迭代速度上具备明显优势。这一特性对正在积极构建软件生态的国产GPU厂商来说,无疑是重要机遇。
沐曦率先跟进这一机遇。沐曦AI编译器团队和TileLang社区合作已提前参与该项目,探讨沐曦GPU与TileLang的适配。 这种与开源社区的紧密合作,显著加快了沐曦曦云C系列产品融入主流开发生态的速度。
在算力领域,硬件性能只是基础,软件生态才是决定成败的关键。沐曦MXMACA软件栈作为连接硬件与应用的桥梁,其兼容性与性能直接关系到用户体验。目前沐曦MXMACA软件栈已实现对主流国际主流生态的兼容,原生支持PyTorch、TensorFlow及国产框架。这种兼容性设计让开发者能够几乎无成本地将现有项目迁移到MXMACA软件栈。
如今,MXMACA对TileLang社区的快速支持更进一步,体现了沐曦在开源生态建设上的敏锐度。TileLang作为重要的AI计算编译器项目,其对MXMACA的支持不仅减少了开发者适配工作量,更打通了沐曦硬件与现代化AI编译工具链的通道。
在WAIC 2025期间,沐曦联合创始人、CTO兼首席软件架构师杨建曾明确表示,“GPU芯片的价值发挥离不开软件驱动,从底层驱动、中间框架到上层应用,形成完整链条”。 这一理念正在通过实际的开源贡献得以践行。
TileLang最显著的优势在于大幅提升GPU内核的开发效率。TileLang实现FlashAttention算子开发,代码量从500+行减少至80行,并保持了与官方版本持平的性能。这种代码量的大幅减少不仅降低了开发门槛,也提高了维护性和可读性。
有开发者感叹TileLang是一种非常优雅的语言,只需不到100行代码就能写出比Flash Attention 2原版快30%。这种开发效率与性能兼得的特点,正是TileLang引发关注的重要原因。
TileLang提供了三个不同层次的编程接口,满足从初学者到专家不同水平开发者的需求。 这种分层设计使曦云C系列的开发者能够根据自身熟练程度,选择合适的切入点进行算子开发与优化。
DeepSeek选择TileLang并非偶然,而是基于实际性能验证。具体的性能数据来自TileLang以DeepSeek发布的FlashMLA内核作为评测基准的实验:在英伟达H100上的MLA解码速度,TileLang编写的内核做到与FlashMLA相当。这一结果证明了TileLang在性能上具备与国际先进产品竞争的实力。DeepSeek v3.2也验证了TileLang确实可以用来训练模型。 这一实践意义重大,表明了TileLang已从实验阶段走向实际生产应用。
沐曦开源的TileLang已发布在gitee仓库【mcTileLang】,基于TileLang已有的优化效果详细性能如下:
可以预期在常用核心算子上将有与国际领先产品竞争甚至超越的表现,期待开源社区一起共建和持续更新。
为了让开发者更便捷地体验TileLang在曦云C系列上的性能表现,沐曦已在模力方舟平台提供在线体验环境。这一平台将提供预配置的开发环境,让开发者无需自行搭建硬件平台,即可体验TileLang在曦云C系列上的算子开发和优化过程。详细步骤如下:
1. 扫码参与【双节体验券/卷】;
2. 领取您的TileLang专属算力券,并兑换算力容器资源;
3. 按照【https://gitee.com/metax-maca/mcTileLang/blob/dev/README.md】快速上手(点击阅读原文,即可进入界面);
4. 体验TileLang,感受其魅力。
从芯片到编译器,从硬件到生态,沐曦曦云C系列产品与TileLang的快速适配展现了中国算力产业的新思路:不再单点突破,而是携手开源生态共进。
沐曦曦云C系列产品在TileLang社区的支持只是国产GPU漫长征程中的一小步,却是生态建设上质变的一大步。当开发者们在模力方舟平台上轻点鼠标,就能在曦云系列上运行优化后的TileLang代码,那种生态隔阂的坚冰正悄然消融。
未来的算力格局,注定是多元共存、开源生态共荣的图景。