⏶25
AlayaDB:高效且有效的长上下文LLM推理的数据基础
04月14日发表
04月17日由
Yangshen Deng 提交
作者:
Yangshen Deng, Zhengxin You,
Long Xiang,
Qilong Li,
Peiqi Yuan, Zhaoyang Hong,
Yitao Zheng, Wanting Li,
Runzhong Li,
Haotian Liu, Kyriakos Mouratidis, Man Lung Yiu, Huan Li, Qiaomu Shen, Rui Mao,
Bo Tang

摘要
AlayaDB 是一种尖端的向量数据库系统,专为 AlayaDB AI 的大型语言模型 (LLM) 的高效且有效的长上下文推理而原生构建。具体而言,它将 KV 缓存和注意力计算从 LLM 推理系统中解耦出来,并将它们封装到一个新颖的向量数据库系统中。对于模型即服务提供商 (MaaS) 而言,与现有的替代解决方案(例如,KV 缓存解聚、基于检索的稀疏注意力)相比,AlayaDB 在处理具有不同服务级别目标 (SLO) 的各种工作负载时,消耗更少的硬件资源并提供更高的生成质量。AlayaDB 的关键在于,它将 LLM 推理的注意力计算和缓存管理抽象为查询处理过程,并通过原生查询优化器优化性能。在这项工作中,我们通过 (i) 来自我们行业合作伙伴的三个用例,以及 (ii) LLM 推理基准测试的广泛实验结果,来证明 AlayaDB 的有效性。
🔥 AlayaDB 构建于我们的开源向量引擎 AlayaLite 之上。AlayaLite 是一款基于协程的高性能向量数据库。https://github.com/AlayaDB-AI/AlayaLite