每日论文

MultiFinBen: 一个多语言、多模态、难度感知的金融大模型评估基准

MultiFinBen: 一个多语言、多模态、难度感知的金融大模型评估基准

扩展LLM智能体的测试时计算能力

扩展LLM智能体的测试时计算能力

CMI-Bench：一个用于评估音乐指令遵循的综合基准

CMI-Bench：一个用于评估音乐指令遵循的综合基准

LongLLaDA：释放扩散式大语言模型的长上下文能力

LongLLaDA：释放扩散式大语言模型的长上下文能力

具有可验证奖励的强化学习隐式激励基础LLM中的正确推理

具有可验证奖励的强化学习隐式激励基础LLM中的正确推理

Xolver：通过整体经验学习进行多智能体推理，就像奥林匹克竞赛团队一样

Xolver：通过整体经验学习进行多智能体推理，就像奥林匹克竞赛团队一样

通过强化学习实现高效医学 VIE

V-JEPA 2：自监督视频模型实现理解、预测和规划

V-JEPA 2：自监督视频模型实现理解、预测和规划

Stream-Omni：与大型语言-视觉-语音模型进行同步多模态交互

探索性推理：一个熵视角

对齐你的流：扩展连续时间流图蒸馏

对齐你的流：扩展连续时间流图蒸馏

QFFT：用于自适应推理的无问微调

QFFT：用于自适应推理的无问微调

LLM 能为算法问题生成高质量测试用例吗？TestCase-Eval：故障覆盖率和暴露的系统性评估

LLM 能为算法问题生成高质量测试用例吗？TestCase-Eval：故障覆盖率和暴露的系统性评估

从字节到思想：使用自回归 U-Net 进行语言建模

从字节到思想：使用自回归 U-Net 进行语言建模

担保猜测：一种具有测试保证的CISC到RISC转译语言建模方法

担保猜测：一种具有测试保证的CISC到RISC转译语言建模方法

优化大型推理模型中的长度压缩

VideoMolmo：时空定位遇上指向

EfficientVLA：面向视觉-语言-动作模型的免训练加速和压缩

EfficientVLA：面向视觉-语言-动作模型的免训练加速和压缩

CRITICTOOL：评估大型语言模型在工具调用错误场景中的自我批判能力

CRITICTOOL：评估大型语言模型在工具调用错误场景中的自我批判能力

环境扩散 Omni：用坏数据训练好模型

环境扩散 Omni：用坏数据训练好模型

Ring-lite：通过C3PO稳定化的强化学习实现LLM的可扩展推理

Ring-lite：通过C3PO稳定化的强化学习实现LLM的可扩展推理

xbench：通过与职业对齐的真实世界评估追踪智能体的生产力扩展

xbench：通过与职业对齐的真实世界评估追踪智能体的生产力扩展

驯服大语言模型中的多义性：通过稀疏自编码器实现可证明的特征恢复

驯服大语言模型中的多义性：通过稀疏自编码器实现可证明的特征恢复

Router-R1: 通过强化学习教会LLM多轮路由和聚合

Router-R1: 通过强化学习教会LLM多轮路由和聚合

AgentSynth: 通用型计算机操作智能体的可扩展任务生成

AgentSynth: 通用型计算机操作智能体的可扩展任务生成

专家混合遇上上下文强化学习

通用越狱后缀是强大的注意力劫持者

通用越狱后缀是强大的注意力劫持者

CAMS：一个由CityGPT驱动的城市人类流动性模拟智能体框架

CAMS：一个由CityGPT驱动的城市人类流动性模拟智能体框架

EMLoC：基于模拟器的内存高效微调，结合 LoRA 校正

EMLoC：基于模拟器的内存高效微调，结合 LoRA 校正

TR2M：结合语言描述和尺度导向对比，将单目相对深度转换为度量深度

TR2M：结合语言描述和尺度导向对比，将单目相对深度转换为度量深度

寻宝：利用训练时标记实时定位长尾

寻宝：利用训练时标记实时定位长尾

对齐质量指数 (AQI)：超越拒绝：AQI作为一种通过潜在几何、聚类发散和逐层池化表示的内在对齐诊断方法

对齐质量指数 (AQI)：超越拒绝：AQI作为一种通过潜在几何、聚类发散和逐层池化表示的内在对齐诊断方法

图谱顾问：基于多智能体协同的自适应图谱探索，以增强大语言模型推理能力

图谱顾问：基于多智能体协同的自适应图谱探索，以增强大语言模型推理能力

VisText-Mosquito：一个用于人工智能蚊子繁殖地检测和推理的多模态数据集和基准

VisText-Mosquito：一个用于人工智能蚊子繁殖地检测和推理的多模态数据集和基准

DynaGuide：通过主动动态引导来引导扩散策略