⏶13
TF1-EN-3M:三百万条合成的道德寓言用于训练小型开放式语言模型
发表
由
Mihai Dan Nadăș 提交
作者:
Mihai Nadas, Laura Diosan,
Andrei Piscoran,
Andreea Tomescu

摘要
道德故事是传承价值观的久经考验的载体,然而现代自然语言处理缺乏一个大型的、结构化的语料库,将连贯的叙事与明确的伦理教训相结合。我们通过 TF1-EN-3M 弥补了这一空白,这是第一个包含三百万个英语寓言的开放数据集,这些寓言完全由不超过 8B 参数的指令调优模型生成。每个故事都遵循六个插槽的框架(角色 -> 特征 -> 设置 -> 冲突 -> 解决方案 -> 道德),通过组合式提示引擎生成,保证了类型的准确性,同时涵盖了广泛的主题空间。混合评估管道结合了 (i) 基于 GPT 的评论员,对语法、创造力、道德清晰度和模板遵循情况进行评分,以及 (ii) 无需参考的多样性和可读性指标。在十个开源候选模型中,一个 8B 参数的 Llama-3 变体提供了最佳的质量-速度平衡,在单个消费级 GPU(<24 GB 显存)上以每 1000 个寓言约 13.5 美分的价格生成高评分的寓言。我们在宽松许可下发布了数据集、生成代码、评估脚本和完整元数据,从而实现了精确的复现性和成本基准测试。TF1-EN-3M 为指令遵循、叙事智能、价值观对齐和儿童友好型教育 AI 领域的研究开辟了新的途径,表明大规模道德故事生成不再需要专有的巨型模型。
我们刚刚发布了 TF1-EN-3M,这是迄今为止最大的机器生成的道德寓言开放语料库 — 并且完全由不大于 8B 参数 的模型创建。🎉
📄 [TF1-EN-3M:用于训练小型开源语言模型的三百万合成道德寓言 (https://huggingface.co/papers/2504.20605)]
现有集合(如伊索寓言)最多只有几百个例子 — 对于当今数据饥渴的模型来说太小了。
大多数教育、设备端或开源项目无法部署 70B 参数的巨型模型。
我们问道:紧凑、完全开源的模型(< 8B)能否生成一个庞大、高质量、专注于伦理的故事语料库,供任何人进行微调?
👉 Hub 上的数据集:
klusai/ds-tf1-en-3m
一个组合引擎将六个精选列表(每个 100 个选项)扩展为数百万个独特的 prompt。
十个开源指令模型(1B-8B)进行竞争;我们使用
gpt-o3-mini
评论员对语法、创造力、道德清晰度和Prompt 依从性进行评分,并进行 Self-BLEU 和 Distinct-1 多样性检查。LLaMA-3.1-8B-Instruct 获胜 — 质量优异,显存占用极小,在 L40S GPU 上的每故事成本不到 $0.0005。
所有代码都在公共的
tinyfabulist
repo 中。平均评论员评分: 7.8 / 10(四个维度)
年龄契合度: 80% 标记为“年龄 B”(4-7 岁)
多样性: Self-BLEU 0.31 • Distinct-1 0.16
```python
from datasets import loaddataset, disablecaching
disable_caching()
ds = load_dataset("klusai/ds-tf1-en-3m", split="train[:3%]")
print(ds.shuffle(seed=42)[0]["fable"])
```
微调小型 LM(1-3B),使其成为可在手机或边缘设备上运行的睡前故事生成器。
构建道德推理基准:给定一个寓言,预测其寓意。
训练对齐评论员,以验证生成文本中儿童安全的道德内容。
翻译 prompt 列表,并在一个周末的 GPU 冲刺中生成法语、印地语或斯瓦希里语的巨型寓言集。
论文:TF1-EN-3M 合成寓言数据集:使用小型开源模型进行大规模故事生成
作者:Mihai Nădaș, Laura Dioșan, Andreea Tomescu & Andrei Pișcoran (KlusAI Labs & Babeș-Bolyai University)
祝大家故事愉快!🎈