Mistral AI / Introducing Search Toolkit / 2026-05-28 https://mistral.ai/news/search-toolkit/

Mistral Search Toolkit:RAG 先分开评估检索和生成

Search Toolkit 把 ingestion、retrieval 和 evaluation 放进同一框架,RAG 团队应先独立评估检索质量。

教程 · 2026-06-02
Mistral Search Toolkit:RAG 先分开评估检索和生成 配图
摘要

Search Toolkit 把 ingestion、retrieval 和 evaluation 放进同一框架,RAG 团队应先独立评估检索质量。

栏目
教程
发布时间
2026-06-02
来源
Mistral AI / Introducing Search Toolkit / 2026-05-28 https://mistral.ai/news/search-toolkit/

这篇解决什么

RAG 失败常被误判为模型不行。实际问题可能是分块、索引、BM25、向量召回或 rerank 配置。检索和生成混在一起评测,团队无法知道该修哪一层。

Mistral Search Toolkit:RAG 先分开评估检索和生成 流程图

适合谁

适合做企业知识库、代码库搜索、客服检索、财务文档问答和内部 Agent 的开发者。

操作步骤

  1. 先准备 30 条真实问题和对应标准资料片段
  2. 把文档解析、分块、embedding、索引和检索配置写成版本表
  3. 分别跑 BM25、向量和混合检索,记录 recall、precision、MRR 和 NDCG
  4. 只在检索通过后再接入生成模型
  5. 每次文档结构或数据源变化后重新跑检索评测
  6. 把最佳配置写入知识库发布门禁

可复制模板

数据源:
问题集:
分块策略:
检索器:BM25 / Vector / Hybrid
评测指标:
通过阈值:
发布结论:
Mistral Search Toolkit:RAG 先分开评估检索和生成 检查清单

验收清单

  • 问题集来自真实用户
  • 检索与生成分开评测
  • 指标不只看主观回答
  • 配置有版本记录
  • 数据源变化会触发复测

常见错误

  • 只收藏产品更新,没有改成自己的任务卡、权限表和验收证据。
  • 直接在生产账号、生产仓库或公开页面试新功能,没有先跑低风险样本。
  • 只看工具能力,不记录成本、失败率、人工接管次数和恢复动作。
  • 把外部链接当正文主体,读者离开页面后才知道怎么做。

30 分钟小样本

前 5 分钟写清输入、目标和风险边界;中间 15 分钟按步骤跑一个低风险样本;最后 10 分钟记录输出、失败点、人工修改量和下一次复用条件。样本不通过时,只修失败点,不扩大范围。

Mistral Search Toolkit:RAG 先分开评估检索和生成 输出示意

下一步怎么用

第一次执行时把它当成个人操作卡;第二次复用时沉淀为团队模板;第三次仍然稳定后,再升级为固定 SOP、Skill 或工具导航页。涉及账号、发布、删除、付费、生产代码和客户数据的动作,必须保留人工确认点。

资料依据

标签

MistralRAGSearch Toolkit检索评估企业知识库