⏶8
在大型语言模型中,对话优化型分词器是否有必要?
发表
由
Gonzalo 提交
作者: Raquel Ferrando, Javier Conde, Gonzalo Martínez, Pedro Reviriego
摘要
大型语言模型(LLM)的计算和能源成本呈指数级增长,这得益于不断扩大的模型规模以及数亿用户对LLM的大规模采用。LLM的单位成本是令牌的计算。因此,分词器在模型的效率中扮演着重要角色,它们经过精心优化,以最大程度地减少训练语料库中文本的令牌数量。LLM最受欢迎的应用之一是与用户交互的聊天机器人。一个关键的观察是,对于这些聊天机器人来说,重要的是分词器在用户文本输入和聊天机器人响应中的性能。这些文本很可能与训练语料库中的文本不同。因此,一个立即出现的问题是,针对聊天机器人对话优化分词器是否存在潜在益处。在本文中,通过使用公开可用的聊天机器人对话语料库来重新设计其词汇表并评估其在该领域的性能,对不同分词器探索了这一想法。结果表明,对话优化分词器始终如一地减少了聊天机器人对话中的令牌数量,这可以带来显著的能源节省,范围在5%到10%之间,同时对原始训练语料库的分词效率影响极小甚至略有积极影响。
提交至 ACL 2025 学生研究研讨会