⏶16
Aryabhata: 一个专注于JEE数学的考试导向型语言模型
发表
由
Ritvik Rastogi 提交

作者:
Ritvik Rastogi, Sachin Dharashivkar, Sandeep Varma

摘要
我们推出了 Aryabhata 1.0,这是一个紧凑的 7B 参数数学推理模型,专为印度学术考试——联合入学考试 (JEE) 进行了优化。尽管大型语言模型 (LLM) 发展迅速,但现有模型通常仍不适用于教育用途。Aryabhata 1.0 通过合并强大的开源推理模型构建,然后使用课程学习对通过最佳 n 拒绝采样精选的验证思维链 (CoT) 轨迹进行监督微调 (SFT)。为了进一步提高性能,我们应用了带有可验证奖励的强化学习 (RLVR),使用 A2C 目标和组相对优势估计,以及新颖的探索策略,例如自适应组大小调整和温度缩放。在内部 (JEE Main 2025) 和外部 (MATH、GSM8K) 基准测试中,Aryabhata 在准确性和效率方面均优于现有模型,同时提供具有教学意义的逐步推理。我们将 Aryabhata 作为基础模型发布,以推动以考试为中心的开源小型语言模型的发展。这是我们首次面向社区发布以征求反馈意见(https://huggingface.co/PhysicsWallahAI/Aryabhata-1.0{Hugging Face 上的 Aryabhata 1.0});PW 正在积极训练未来的模型,以进一步提高学生的学习成果。
Aryabhata 1.0 是由 Physics Wallah AI Research 开发的 7B 参数数学小型语言模型,专为 JEE Mains 等高风险印度竞争性考试进行了优化。尽管其尺寸紧凑,Aryabhata 1.0 在以考试为中心的推理任务中实现了最先进的性能,并具有令人印象深刻的令牌效率和低推理成本。