TF1-EN-3M:三百万条合成的道德寓言用于训练小型开放式语言模型

发表
Mihai Dan NadășMihai Dan Nadăș 提交
作者: Mihai Dan NadășMihai Nadas, Laura Diosan, Andrei PiscoranAndrei Piscoran, Andreea TomescuAndreea Tomescu

摘要

道德故事是传承价值观的久经考验的载体,然而现代自然语言处理缺乏一个大型的、结构化的语料库,将连贯的叙事与明确的伦理教训相结合。我们通过 TF1-EN-3M 弥补了这一空白,这是第一个包含三百万个英语寓言的开放数据集,这些寓言完全由不超过 8B 参数的指令调优模型生成。每个故事都遵循六个插槽的框架(角色 -> 特征 -> 设置 -> 冲突 -> 解决方案 -> 道德),通过组合式提示引擎生成,保证了类型的准确性,同时涵盖了广泛的主题空间。混合评估管道结合了 (i) 基于 GPT 的评论员,对语法、创造力、道德清晰度和模板遵循情况进行评分,以及 (ii) 无需参考的多样性和可读性指标。在十个开源候选模型中,一个 8B 参数的 Llama-3 变体提供了最佳的质量-速度平衡,在单个消费级 GPU(<24 GB 显存)上以每 1000 个寓言约 13.5 美分的价格生成高评分的寓言。我们在宽松许可下发布了数据集、生成代码、评估脚本和完整元数据,从而实现了精确的复现性和成本基准测试。TF1-EN-3M 为指令遵循、叙事智能、价值观对齐和儿童友好型教育 AI 领域的研究开辟了新的途径,表明大规模道德故事生成不再需要专有的巨型模型。
查看 arXiv 页面查看 PDF

评论

Mihai Dan NadășMihai Dan Nadăș
论文作者
论文提交者
🦊📚 介绍 TF1-EN-3M — 专为小型开源 LLM 设计的三百万合成道德寓言

我们刚刚发布了 TF1-EN-3M,这是迄今为止最大的机器生成的道德寓言开放语料库 — 并且完全由不大于 8B 参数 的模型创建。🎉

📄 [TF1-EN-3M:用于训练小型开源语言模型的三百万合成道德寓言 (https://huggingface.co/papers/2504.20605)]


🌟 为什么还要一个故事数据集?
  • 现有集合(如伊索寓言)最多只有几百个例子 — 对于当今数据饥渴的模型来说太小了。

  • 大多数教育、设备端或开源项目无法部署 70B 参数的巨型模型。

  • 我们问道:紧凑、完全开源的模型(< 8B)能否生成一个庞大、高质量、专注于伦理的故事语料库,供任何人进行微调?


📦 TF1-EN-3M 里有什么?
特性 详细信息
大小 3,000,000 个英文寓言 (≈ 1B tokens)
结构 六槽支架:角色 → 特质 → 情境 → 冲突 → 解决方案 → 道德
受众 为 4-7 岁儿童编写(词汇简单,道德明确)
元数据 Prompt、模型名称、token 计数、延迟、GPU 类型和每故事成本
许可协议 CC-BY-4.0 — 可自由混编、筛选或扩展

👉 Hub 上的数据集: klusai/ds-tf1-en-3m


🤖 一段式生成配方

一个组合引擎将六个精选列表(每个 100 个选项)扩展为数百万个独特的 prompt。

十个开源指令模型(1B-8B)进行竞争;我们使用 gpt-o3-mini 评论员对语法创造力道德清晰度Prompt 依从性进行评分,并进行 Self-BLEUDistinct-1 多样性检查。

LLaMA-3.1-8B-Instruct 获胜 — 质量优异,显存占用极小,在 L40S GPU 上的每故事成本不到 $0.0005。

所有代码都在公共的 tinyfabulist repo 中。


🔍 快速质量一瞥
  • 平均评论员评分: 7.8 / 10(四个维度)

  • 年龄契合度: 80% 标记为“年龄 B”(4-7 岁)

  • 多样性: Self-BLEU 0.31 • Distinct-1 0.16

```python

from datasets import loaddataset, disablecaching

disable_caching()

ds = load_dataset("klusai/ds-tf1-en-3m", split="train[:3%]")

print(ds.shuffle(seed=42)[0]["fable"])

```


🛠️ 你能用它做什么?
  • 微调小型 LM(1-3B),使其成为可在手机或边缘设备上运行的睡前故事生成器。

  • 构建道德推理基准:给定一个寓言,预测其寓意。

  • 训练对齐评论员,以验证生成文本中儿童安全的道德内容。

  • 翻译 prompt 列表,并在一个周末的 GPU 冲刺中生成法语、印地语或斯瓦希里语的巨型寓言集。

论文TF1-EN-3M 合成寓言数据集:使用小型开源模型进行大规模故事生成

作者:Mihai Nădaș, Laura Dioșan, Andreea Tomescu & Andrei Pișcoran (KlusAI Labs & Babeș-Bolyai University)

祝大家故事愉快!🎈

ale brownale brown

这太有趣了。通过叙述而非明确说明的价值观来实现对齐。我推测模型可以在现实场景中对“价值观”获得更微妙的理解。鉴于这些模型是由程序性知识驱动的——也许这是一种更具可扩展性的方法来对齐强大的AI。非常酷。