⏶0

ParaStudent：通过教LLM努力挣扎来生成和评估真实的学⽣代码

07月16日发表

07月22日由 Mir Miroyan 提交

作者: Mihran Miroyan, Rose Niousha, Joseph E. Gonzalez, Gireeja Ranade, Narges Norouzi

摘要

大型语言模型 (LLM) 在编程任务中表现出强大的性能，但它们能否像真正的学生一样生成类似学生的代码——不完美、迭代且风格多样？我们提出了 ParaStudent，一项对基于 LLM 的“类学生”代码生成在入门编程课程环境中的系统性研究。使用跨多个学期的带时间戳的学生提交的数据集，我们设计了低分辨率和高分辨率实验，以模拟学生的进步，并从语义、功能和风格维度评估代码输出。我们的结果表明，微调可以显着提高与真实学生轨迹的对齐，并更忠实地捕捉错误模式、增量改进和风格变化。这项研究表明，对真实的学⽣代码进⾏建模需要通过上下⽂感知的⽣成、时间建模和多维评估来捕捉学习动态。实验和评估的代码可在 https://github.com/mmiroyan/ParaStudent 上获取。

查看 arXiv 页面查看 PDF

Mir Miroyan

论文提交者

大型语言模型 (LLM) 在编程任务方面表现出强大的性能，但它们能否像真正的学生一样生成类似学生的代码——不完美、迭代且风格多样？我们提出了 ParaStudent，这是一项对基于 LLM 的“类似学生”代码生成在入门编程课程设置中进行的系统研究。我们使用来自多个学期的时间戳学生提交的数据集，设计了低分辨率和高分辨率实验，以模拟学生的进步，并沿语义、功能和风格维度评估代码输出。我们的结果表明，微调显着提高了与真实学生轨迹的一致性，并更忠实地捕捉了错误模式、增量改进和风格变化。这项研究表明，对现实学生代码进行建模需要通过上下文感知生成、时间建模和多维评估来捕捉学习动态。

ParaStudent：通过教LLM努力挣扎来生成和评估真实的学⽣代码

摘要

评论