语音转LaTeX:用于转换口头方程式和句子新模型和数据集

发表
Anonymous AccountAnonymous Account 提交
作者: Dmitrii Korzh, Dmitrii Tarasov, Artyom Iudin, Elvir Karimov, Matvey SkripkinMatvey Skripkin, Nikita Kuzmin, Andrey Kuznetsov, Oleg Y. Rogov, Ivan Oseledets

摘要

口述数学表达式的转换是一项具有挑战性的任务,它涉及到将语音转录为严格结构化的符号表示,同时解决方程发音中固有的歧义。尽管在自动语音识别(ASR)和语言模型(LM)方面取得了显著进展,但将口述数学转换为LaTeX的问题仍然未被充分探索。这项任务直接应用于教育和研究领域,例如讲座转录或笔记创建。基于ASR后校正的现有工作需要两次转录,仅关注孤立的方程,测试集有限,并且不提供训练数据或多语言覆盖。为了解决这些问题,我们提出了第一个完全开源的大规模数据集,包含超过66,000个由人工标注的数学方程和句子音频样本,涵盖英语和俄语,并来自不同的科学领域。除了ASR后校正模型和少样本提示,我们还应用了音频语言模型,在MathSpeech基准测试中,对于方程转换,其字符错误率(CER)结果相当(28% vs. 30%)。相比之下,在提出的S2L-方程基准测试中,我们的模型表现出比MathSpeech模型高出40多个百分点的显著优势,即使考虑了LaTeX格式的人为因素(27% vs. 64%)。我们建立了第一个用于数学句子识别的基准(S2L-句子),并实现了40%的方程字符错误率。这项工作为多模态人工智能的未来发展奠定了基础,特别关注数学内容识别。
查看 arXiv 页面查看 PDF

评论

Anonymous AccountAnonymous Account
论文提交者

代码即将上传