Anthropic 正式发布 Claude Opus 4.7

Claude Opus 4.7 是 Claude Opus 4.6 的直接升级版，重点在高级软件工程、复杂长时任务和视觉能力上实现显著提升，特别适合需要高自主性、严谨性和自我验证的开发者与专业用户。

编码与 Agentic（代理式）能力大幅跃升：
- 在长运行、多步骤任务中表现更稳健，能自主处理异步工作流、CI/CD、复杂规划，并进行自我验证和纠错。
- 显著减少循环错误、提升一致性，并能优雅从失败中恢复。
- 在实际基准中表现突出：
  - Rakuten-SWE-Bench：解决生产任务数量是 Opus 4.6 的 3 倍。
  - CursorBench：从 58% 提升到 70%。
  - 93 任务编码基准：整体解决率提升 13%，新增解决 4 个此前未解决的任务。
  - 代码质量、测试质量、代码审查召回率均有双位数提升。
- 可以更自信地将复杂编码工作交给它，甚至自主构建完整系统（如 Rust 文本转语音引擎）。
视觉（多模态）能力大幅增强：
- 支持最高 2576 像素 长边图像（约 375 万像素），是之前模型的 3 倍以上。
- 在处理化学结构、技术图表、密集截图、数据提取等方面表现更好。
- 在视觉敏锐度基准（XBOW）上从 54.5% 飙升至 98.5%。
其他实用提升：
- 文档推理（如 OfficeQA Pro）错误率降低 21%。
- 金融分析、代理工作流、角色一致性更强。
- 指令遵循更字面化（需要重新调优提示）。
- 支持文件系统式长期记忆，适合多会话复杂项目。
- 整体更“有品位”和创意，适合制作界面、幻灯片、专业文档等。

Claude Opus 4.7 在多个内部和第三方基准中超越了 Opus 4.6，并在代理式编码、金融代理、长上下文推理等领域达到或并列当前最强水平。

它虽然不如 Anthropic 内部的 Mythos Preview 模型全面，但作为公开可用的模型，已是当前最强通用旗舰之一，尤其在需要严谨性和可靠性的场景中。

立即可用：Claude.ai、API（模型 ID: claude-opus-4-7）、Amazon Bedrock、Google Vertex AI、Microsoft Foundry 等平台。
定价：与 Opus 4.6 相同 —— 输入 $5 / 百万 token，输出 $25 / 百万 token。
注意：新分词器可能使 token 消耗增加 1.0–1.35 倍，但整体效率因模型更智能而提升。
建议从 Opus 4.6 迁移的用户可参考 Anthropic 提供的迁移指南。

安全水平与 Opus 4.6 相当，欺骗性、奉承性和滥用配合率较低。

模型更诚实、对提示注入的抵抗力更强，但仍有一些领域（如某些受控物质的危害建议）存在温和不足。

Anthropic 强调它“总体上可靠且对齐良好”，但 Mythos Preview 在对齐方面仍更优。

网络安全相关能力被有意控制，并设有专门的验证程序供专业人士使用。

Claude Opus 4.7 是 Anthropic 在 2026 年中期的又一次“针对性升级”，核心是让开发者能更放心地把真正复杂、长时间、需要高度可靠的编码和多模态任务交给 AI。

它特别适合专业软件工程、金融分析、文档密集型工作以及需要高自主代理的场景。

如果你是重度开发者或需要处理复杂项目的用户，值得立即尝试。相比前代，它在“能真正落地解决问题”这一点上又前进了一大步。