从阅读时的眼动中解码开放式信息搜索目标

发表
Omer ShubiOmer Shubi 提交
作者: Cfir Avraham Hadar, Omer Shubi, Yoav MeiriYoav Meiri, Yevgeni Berzak

摘要

阅读时,我们通常对文本中的特定信息感兴趣。例如,您可能正在阅读本文,因为您对阅读中用于眼动跟踪的LLMs、实验设计感到好奇,或者您可能只关心“它真的有效吗?”这个问题。更广泛地说,在日常生活中,人们带着各种各样与文本相关的目标来阅读文本,这些目标指导着他们的阅读行为。在这项工作中,我们首次探讨了是否可以从阅读时的眼动数据中自动解码开放式的阅读目标。为了解决这个问题,我们引入了目标分类和目标重建任务以及评估框架,并使用了包含数百个与文本相关的信息搜索任务的大规模英语阅读眼动跟踪数据。我们开发并比较了几种判别式和生成式多模态LLMs,它们结合了眼动数据和文本来进行目标分类和目标重建。我们的实验在这两个任务上都取得了显著成功,表明LLMs可以从眼动数据中提取有关读者文本特定目标的有价值信息。
查看 arXiv 页面查看 PDF

评论

Omer ShubiOmer Shubi
论文提交者
此评论已隐藏。
Omer ShubiOmer Shubi
论文提交者

👀 当你阅读时,你真正在寻找什么?

我们并非总是为了理解一切而阅读——有时我们心中有特定的问题。但是,机器能否仅仅通过我们的眼球移动,就知道我们在寻找什么呢?

在我们最新的工作中,我们探索了大型多模态模型能否从眼动数据中解读开放式阅读目标。

1️⃣ 示例段落、候选问题,以及它们与文本特定部分的关系:

questions-crop.jpg

2️⃣ 我们如何利用判别式模型和生成式模型,从阅读时的眼球移动中推断阅读目标:

Tasks_Diagrams-crop.jpg