Skip to content

RAPTOR 递归摘要检索指南

概述

2024 年斯坦福论文,通过递归聚类 + 摘要构建树形索引,解决长文档多跳问答问题。

核心思想

传统 RAG:文档 → 切片 → 向量化 → 检索

RAPTOR:文档 → 切片 → 聚类 → 摘要 → 再聚类 → 再摘要 → 树形索引

关键创新

叶子节点:原始文本片段
    ↓ 语义聚类
中间节点:聚类摘要
    ↓ 再次聚类
根节点:全局摘要

技术要点

  1. 按语义相似性聚类(非文本顺序)— 相关内容自动聚合
  2. 递归摘要 — 从细粒度到粗粒度逐层摘要
  3. 树形检索 — 可在任意层级匹配,支持不同粒度的问题

性能表现

  • 在 NarrativeQA 等长文档数据集达到 SOTA
  • 特别适合需要「跨段落推理」的多跳问答
  • RAGFlow v0.6.0 已集成此方法

实践建议

RAPTOR 适合长文档、多跳问答场景。对于短文档或简单检索,传统 RAG 已经足够,不必引入额外复杂度。

致富经 — 项目开发 & 技术沉淀