近日,我院王兴伟教授团队在大模型训练推理系统方向的最新研究成果被计算机网络领域国际顶级会议ACM SIGCOMM 2025录用并发表。该成果是东北大学首篇入选SIGOCOMM主会的论文。ACM SIGCOMM(Special Interest Group on Data Communication)已经连续举办了39届,是计算机网络领域最具影响力、历史最悠久的国际学术会议,被誉为计算机网络领域的年度盛会。该会议不仅看重研究的理论深度与实践支撑,更强调其在学术与产业界的实际价值,入选论文堪称计算机网络领域最新突破的缩影与未来趋势的风向标。
论文:ResCCL: Resource-Efficient Scheduling for Collective Communication
作者:刘桐瑞(共同一作)、黑晨阳(共同一作)、李福亮*、高程希、操佳敏、王天姝、翟恩南、王兴伟*
该工作面向高性能大模型训练推理系统展开研究,目标是解决万卡集群的互联互通这一限制模型扩展和影响训练推理性能的瓶颈问题。论文针对现有集合通信库(CCL)存在的低效线程块利用、带宽资源闲置、运行时性能损失等问题,提出了首个专为GPU资源高效调度而设计的集合通信后端ResCCL,实现了从算法逻辑到硬件执行的全方位创新。具体而言,论文设计了针对CCL的领域特定语言,提出了原语级执行调度策略,实现了灵活的线程块分配以及轻量级内核生成等方法,并在阿里云GPU集群中进行了测试验证,结果表明所提方法比现有最优算法提高带宽利用率高达5.86倍。
该成果概念萌芽到生产级部署,团队历经一年多的反复迭代与严苛实验验证,最终实现远超预期的性能目标。围绕该系统,团队已启动多项后续研究,并凭借其技术优势与阿里云展开深度研究合作。
