ParaStudent:通过教LLM努力挣扎来生成和评估真实的学⽣代码

发表
Mir MiroyanMir Miroyan 提交
作者: Mihran Miroyan, Rose Niousha, Joseph E. Gonzalez, Gireeja Ranade, Narges Norouzi

摘要

大型语言模型 (LLM) 在编程任务中表现出强大的性能,但它们能否像真正的学生一样生成类似学生的代码——不完美、迭代且风格多样?我们提出了 ParaStudent,一项对基于 LLM 的“类学生”代码生成在入门编程课程环境中的系统性研究。使用跨多个学期的带时间戳的学生提交的数据集,我们设计了低分辨率和高分辨率实验,以模拟学生的进步,并从语义、功能和风格维度评估代码输出。我们的结果表明,微调可以显着提高与真实学生轨迹的对齐,并更忠实地捕捉错误模式、增量改进和风格变化。这项研究表明,对真实的学⽣代码进⾏建模需要通过上下⽂感知的⽣成、时间建模和多维评估来捕捉学习动态。实验和评估的代码可在 https://github.com/mmiroyan/ParaStudent 上获取。
查看 arXiv 页面查看 PDF

评论

Mir MiroyanMir Miroyan
论文提交者

大型语言模型 (LLM) 在编程任务方面表现出强大的性能,但它们能否像真正的学生一样生成类似学生的代码——不完美、迭代且风格多样?我们提出了 ParaStudent,这是一项对基于 LLM 的“类似学生”代码生成在入门编程课程设置中进行的系统研究。我们使用来自多个学期的时间戳学生提交的数据集,设计了低分辨率和高分辨率实验,以模拟学生的进步,并沿语义、功能和风格维度评估代码输出。我们的结果表明,微调显着提高了与真实学生轨迹的一致性,并更忠实地捕捉了错误模式、增量改进和风格变化。这项研究表明,对现实学生代码进行建模需要通过上下文感知生成、时间建模和多维评估来捕捉学习动态。