摩尔线程MusaCoder开源:首个基在国产全功效GPU全栈练习的代码年夜模子
发布时间:2026-06-11 来历:转载 责任编纂:lily
【导读】近日,摩尔线程正式发布并开源面向GPU底层算子天生的专用代码年夜模子MusaCoder。这是业内首个基在国产GPU算力底座完玉成链路练习与验证的开源代码年夜模子,其完备后练习流程均于基在MTT S5000构建的夸娥智算集群上完成。于KernelBench严酷评测中,MusaCoder-27B-RL以Overall Pass@8 93.2%、Avg.@8 88.60%的成就,逾越Claude Opus 4.七、GLM-5.一、DeepSeek-V4 Pro、Kimi K2.6等主流SOTA代码模子,揭示出于GPU原生Kernel天生使命上的领先机能。

KernelBench正确率(Avg.@8)对于比
MusaCoder模子权重已经开源:https://huggingface.co/MooreThreads/MusaCoder-27B
MusaCoder论文地址:http://arxiv.org/abs/2606.04847
MusaCoder:专为GPU设计的高机能算子天生模子
MusaCoder是摩尔线程面向GPU底层算子天生使命设计的专用代码年夜模子,包罗9B及27B两个参数范围。该模子重点撑持从PyTorch尺度算子主动天生高机能CUDA/MUSA原生Kernel代码,旨于降低开发者手写底层GPU算子的门坎,晋升GPU高机能计较场景下的代码天生、验证及优化效率。
传统代码年夜模子虽然具有较强的通用编程能力,但于GPU Kernel天生使命中仍面对显著挑战:一方面,GPU Kernel 对于并行计较、线程构造、内存拜候、索引映照及硬件履行特征要求极高;另外一方面,天生代码不仅要语法准确,还有必需可以或许经由过程编译、数值准确性验证、反做弊检测,并于真实履行中得到机能收益。

MusaCoder练习总流程
针对于上述难点,MusaCoder构建了一套面向GPU原生算子(CUDA/MUSA)天生的年夜模子全栈后练习要领论。该流程笼罩数据构建、履行验证、强化进修优化等要害环节,使模子可以或许从基础代码能力慢慢进化为具有底层算子天生与修复能力的专用模子。
于数据构建阶段,MusaCoder 经由过程布局化推理历程及显式 Shape 信息注入,加强模子对于张量外形、内存结构及索引瓜葛的理解,解决从通用代码能力迁徙到 GPU Kernel 天生使命时的冷启动问题。
于评测与练习情况方面,摩尔线程构建了 MooreEval 漫衍式履行验证体系。MooreEval 可以或许对于模子天生的代码举行主动编译、履行、准确性验证、机能测试及反做弊检测,并将成果转化为不变的练习反馈旌旗灯号。这使患上模子不仅能进修“写出能运行的代码”,还有可以或许进一步进修“写出准确、正当且更高效的原生 GPU Kernel”。
于强化进修阶段,MusaCoder针对于GPU Kernel天生使命中的多轮修复、练习不变性及长尾坚苦样本等问题,引入了PrimeEcho、MirrorPop及BDR等机制,用在晋升模子于多轮调试场景下的修复能力及练习不变性。经由过程这些要领,MusaCoder买通了从基础代码微调到履行反馈强化进修的完备优化闭环。
焦点结果:准确率与真实加快能力双晋升
于MooreEval履行式验证和谈下,MusaCoder-27B-RL于KernelBench评测中取患了显著领先体现。

表1:KernelBench评估成果对于比。Pass@8暗示8个采样代码中至少有一个经由过程验证,而Avg.@8则权衡8个样本的平均准确率。
高正确率逾越SOTA:从准确率来看,MusaCoder-27B-RL的Overall Pass@8到达93.2%,Avg.@8到达88.60%,均跨越Claude Opus 4.7的87.2%及77.30%。于更具挑战性的Level 3使命上,MusaCoder-27B-RL的上风越发较着。Level 3使命凡是触及繁杂shape推导、索引映照及多算子组合,对于模子的底层代码理解能力及调试能力提出了更高要求。于该难度级别上,MusaCoder-27B-RL的Pass@8及Avg.@8别离领先Claude Opus 4.7的18个百分点及26.5个百分点。
真实加快能力凸起:于MooreEval尺度下,只有同时经由过程准确性验证、正当性查抄,而且比拟PyTorch baseline得到有用加快的候选实现,才会被计入 Faster Rate。MusaCoder-27B-RL的Overall Faster Rate到达15.0%(vs. PyTorch Eager)及9.2%(vs. torch.compile),别离高在Claude Opus 4.7的 11.8%及7.5%。
这注解MusaCoder不仅可以或许更不变地天生准确的GPU Kernel,也更有能力天生具有现实机能收益的原生算子代码。
国产GPU完玉成流程后练习,验证夸娥智算集群能力
MusaCoder模子的SFT(监视微调)、RFT(拒绝采样微调)、RL(强化进修)、异步rollout、于线编译履行验证和reward计较等全栈练习与验证流程,均依托摩尔线程旗舰级AI训推一体智算卡MTT S5000所构建的夸娥智算集群完成。
这一结果,充实验证了国产GPU不仅可以或许支撑年夜模子推理及通例微调使命,更可以或许不变承载代码年夜模子后练习全周期算力需求。特别是于GPU Kernel天生这一类使命中,练习体系需要频仍举行代码天生、编译、履行、验证及反馈计较,对于硬件、编译栈、运行时、调理体系及评测基础举措措施都提出了更高要求。
MusaCoder的乐成实践,将一次模子练习验证沉淀为可复用的工程范式:不仅为AI Coding、AI Infra等基础举措措施的自立可控提供了实践典范,也揭示了摩尔线程于AI软件栈、练习平台、评测体系及开源模子生态方面的完备工程支撑能力。
共建开放生态,鞭策国产AI立异与运用
MusaCoder的正式开源,旨于为MUSA生态提供面向PyTorch到原生算子天生的基础模子能力,帮忙开发者更高效地完成GPU Kernel 的天生、验证、修复及优化,降低底层算子开发门坎。
同时,MusaCoder也为高校、科研机谈判开源社区提供了一个基在国产全功效GPU的代码天生研究平台,鞭策异构计较编程、AI编译优化及主动化Kernel天生等标的目的的开放研究与技能交流。
将来,摩尔线程将连续加强MusaCoder于繁杂使命上的天生与修复能力,并进一步摸索与IDE插件、主动调试东西、profiling东西等开发者东西链的联合,慢慢形成从PyTorch参考实现到MUSA原生Kernel的主动天生、验证、修复及优化闭环,连续鞭策国产GPU生态设置装备摆设与AI基础举措措施立异。
