Microsoft Blog / Build 2026 / 2026-06-02 https://blogs.microsoft.com/blog/2026/06/02/microsoft-build-2026-be-yourself-at-work/

MAI-Thinking-1 私有预览：企业先做长上下文和代码评测集

Microsoft 公布 MAI-Thinking-1 私有预览后，企业不应只看榜单，应先用自己的长上下文和代码任务评测。

模型更新 · 2026-06-04

MAI-Thinking-1 私有预览：企业先做长上下文和代码评测集配图

摘要

Microsoft 公布 MAI-Thinking-1 私有预览后，企业不应只看榜单，应先用自己的长上下文和代码任务评测。

栏目: 模型更新
发布时间: 2026-06-04
来源: Microsoft Blog / Build 2026 / 2026-06-02 https://blogs.microsoft.com/blog/2026/06/02/microsoft-build-2026-be-yourself-at-work/

这篇解决什么

新 reasoning 模型的公开指标不能直接代表企业任务质量。长上下文、代码生成、成本、延迟和合规来源都要在自己的工作流里验证。

MAI-Thinking-1 私有预览：企业先做长上下文和代码评测集流程图

适合谁

适合使用 Microsoft Foundry、企业 Agent、代码助手和内部知识工作流的平台工程与 AI 负责人。

操作步骤

准备 20 条真实长上下文任务和 20 条代码任务
为每条样本写标准答案、可接受误差和失败标签
对比现有默认模型、MAI-Thinking-1 和备用模型
分别记录准确率、可解释性、延迟、成本和人工修改量
检查模型策略、数据来源要求和企业合规说明
只把通过样本的任务加入路由规则

可复制模板

样本类型：长上下文 / 代码
标准答案：
模型：
通过阈值：
成本：
失败标签：
路由结论：

MAI-Thinking-1 私有预览：企业先做长上下文和代码评测集检查清单

验收清单

样本来自真实任务
标准答案提前写好
至少三模型对比
成本和延迟已记录
路由只纳入通过项

常见错误

只收藏产品更新，没有改成自己的任务卡、权限表和验收证据。
直接在生产账号、生产仓库或公开页面试新功能，没有先跑低风险样本。
只看工具能力，不记录成本、失败率、人工接管次数和恢复动作。
把外部链接当正文主体，读者离开页面后才知道怎么做。

30 分钟小样本

前 5 分钟写清输入、目标和风险边界；中间 15 分钟按步骤跑一个低风险样本；最后 10 分钟记录输出、失败点、人工修改量和下一次复用条件。样本不通过时，只修失败点，不扩大范围。

MAI-Thinking-1 私有预览：企业先做长上下文和代码评测集输出示意

下一步怎么用

第一次执行时把它当成个人操作卡；第二次复用时沉淀为团队模板；第三次仍然稳定后，再升级为固定 SOP、Skill 或工具导航页。涉及账号、发布、删除、付费、生产代码和客户数据的动作，必须保留人工确认点。

资料依据

Microsoft Blog / Build 2026 / 2026-06-02

标签

MicrosoftMAI-Thinking-1模型评测长上下文代码生成