CASS: 基于数据、模型和基准的英伟达到AMD转译

发表
Ahmed HeaklAhmed Heakl 提交
作者: Ahmed HeaklAhmed Heakl, SARIM HASHMISarim Hashmi, Gustavo StahlGustavo Bertolo Stahl, Seung Hun Eddie Han, Salman Khan, Abdulrahman Mahmoud

摘要

我们引入了 CASS,这是首个用于跨架构 GPU 代码转译的大规模数据集和模型套件,目标是源代码级 (CUDA <leftrightarrow> HIP) 和汇编级 (Nvidia SASS <leftrightarrow> AMD RDNA3) 的翻译。该数据集包含跨主机和设备的 7 万对经过验证的代码对,解决了低级 GPU 代码可移植性方面的关键空白。利用这一资源,我们训练了 CASS 系列特定领域语言模型,实现了 95% 的源代码翻译准确率和 37.5% 的汇编代码翻译准确率,显著优于 GPT-4o、Claude 和 Hipify 等商业基线。我们生成的代码在超过 85% 的测试用例中与原生代码性能相匹配,并保留了运行时和内存行为。为了支持严格的评估,我们引入了 CASS-Bench,这是一个涵盖 16 个 GPU 领域并具有真实执行结果的精选基准。所有数据、模型和评估工具均作为开源发布,以促进 GPU 编译器工具、二进制兼容性和 LLM 指导的硬件翻译方面的进展。数据集和基准位于 https://huggingface.co/datasets/MBZUAI/cass{blue{HuggingFace}},代码位于 https://github.com/GustavoStahl/CASS{blue{GitHub}}。
查看 arXiv 页面查看 PDF
CASS: 基于数据、模型和基准的英伟达到AMD转译
CASS: 基于数据、模型和基准的英伟达到AMD转译
CASS: 基于数据、模型和基准的英伟达到AMD转译
CASS: 基于数据、模型和基准的英伟达到AMD转译
CASS: 基于数据、模型和基准的英伟达到AMD转译

评论

Ahmed HeaklAhmed Heakl
论文作者
论文提交者

我们推出 CASS,这是首个用于跨架构 GPU 代码转译的大规模数据集和模型套件,旨在实现源代码级 (CUDA ↔ HIP) 和汇编代码级 (Nvidia SASS ↔ AMD RDNA3) 的翻译。该数据集包含 7 万对经过验证的跨主机和设备的并行代码对,解决了低级 GPU 代码可移植性中的关键空白。利用这一资源,我们训练了 CASS 系列的领域特定语言模型,在源代码翻译中实现了 95% 的准确率,在汇编代码翻译中实现了 37.5% 的准确率,显著优于 GPT-4o、Claude 和 Hipify 等商业基线。我们生成的代码在超过 85% 的测试用例中匹配了原生性能,同时保留了运行时和内存行为。为了支持严格的评估,我们引入了 CASS-Bench,这是一个涵盖 16 个 GPU 领域的精选基准,带有真实执行结果。所有数据、模型和评估工具均已开源发布,以促进 GPU 编译器工具、二进制兼容性和 LLM 指导的硬件翻译方面的进展。

Ahmed HeaklAhmed Heakl
论文作者
论文提交者

我们引入了CASS,这是首个用于跨架构GPU代码转译的大规模数据集和模型套件,旨在实现源代码级别(CUDA <--> HIP)和汇编级别(Nvidia SASS <--> AMD RDNA3)的翻译。该数据集包含7万个经过验证的跨主机和设备的代码对,填补了低级GPU代码可移植性方面的关键空白。利用这一资源,我们训练了CASS系列领域特定语言模型,实现了95%的源代码翻译准确率和37.5%的汇编代码翻译准确率,大幅超越了GPT-4o、Claude和Hipify等商业基线。我们生成的代码在超过85%的测试案例中达到了原生性能,保持了运行时和内存行为。为了支持严格的评估,我们引入了CASS-Bench,这是一个涵盖16个GPU领域并具有真实执行结果的精心策划的基准。所有数据、模型和评估工具均已开源发布,旨在促进GPU编译器工具、二进制兼容性以及LLM指导的硬件翻译领域的发展。

Sarah JohnsonSarah Johnson

突破性的工作!我相信CASS将为跨架构GPU代码翻译树立新标准!

Ahmed HeaklAhmed Heakl
论文作者
论文提交者

谢谢 @sarahjohnson2