RAPTOR 递归摘要检索指南
概述
2024 年斯坦福论文,通过递归聚类 + 摘要构建树形索引,解决长文档多跳问答问题。
核心思想
传统 RAG:文档 → 切片 → 向量化 → 检索
RAPTOR:文档 → 切片 → 聚类 → 摘要 → 再聚类 → 再摘要 → 树形索引
关键创新
叶子节点:原始文本片段
↓ 语义聚类
中间节点:聚类摘要
↓ 再次聚类
根节点:全局摘要技术要点
- 按语义相似性聚类(非文本顺序)— 相关内容自动聚合
- 递归摘要 — 从细粒度到粗粒度逐层摘要
- 树形检索 — 可在任意层级匹配,支持不同粒度的问题
性能表现
- 在 NarrativeQA 等长文档数据集达到 SOTA
- 特别适合需要「跨段落推理」的多跳问答
- RAGFlow v0.6.0 已集成此方法
实践建议
RAPTOR 适合长文档、多跳问答场景。对于短文档或简单检索,传统 RAG 已经足够,不必引入额外复杂度。