Mistral Search Toolkit：RAG 先分开评估检索和生成

摘要

Search Toolkit 把 ingestion、retrieval 和 evaluation 放进同一框架，RAG 团队应先独立评估检索质量。

栏目: 教程
发布时间: 2026-06-02
来源: Mistral AI / Introducing Search Toolkit / 2026-05-28 https://mistral.ai/news/search-toolkit/

这篇解决什么

RAG 失败常被误判为模型不行。实际问题可能是分块、索引、BM25、向量召回或 rerank 配置。检索和生成混在一起评测，团队无法知道该修哪一层。

适合做企业知识库、代码库搜索、客服检索、财务文档问答和内部 Agent 的开发者。

数据源：
问题集：
分块策略：
检索器：BM25 / Vector / Hybrid
评测指标：
通过阈值：
发布结论：

前 5 分钟写清输入、目标和风险边界；中间 15 分钟按步骤跑一个低风险样本；最后 10 分钟记录输出、失败点、人工修改量和下一次复用条件。样本不通过时，只修失败点，不扩大范围。

第一次执行时把它当成个人操作卡；第二次复用时沉淀为团队模板；第三次仍然稳定后，再升级为固定 SOP、Skill 或工具导航页。涉及账号、发布、删除、付费、生产代码和客户数据的动作，必须保留人工确认点。