Anthropic 正式发布 Claude Opus 4.7

Claude Opus 4.7 是 Claude Opus 4.6 的直接升级版,重点在高级软件工程、复杂长时任务和视觉能力上实现显著提升,特别适合需要高自主性、严谨性和自我验证的开发者与专业用户。

2026年4月16日 · 人工智能 · 41 浏览
人工智能生成式AI大模型

Claude Opus 4.7 是 Claude Opus 4.6 的直接升级版,重点在高级软件工程复杂长时任务视觉能力上实现显著提升,特别适合需要高自主性、严谨性和自我验证的开发者与专业用户。

主要亮点与改进

  • 编码与 Agentic(代理式)能力大幅跃升
    • 在长运行、多步骤任务中表现更稳健,能自主处理异步工作流、CI/CD、复杂规划,并进行自我验证和纠错。
    • 显著减少循环错误、提升一致性,并能优雅从失败中恢复。
    • 在实际基准中表现突出:
      • Rakuten-SWE-Bench:解决生产任务数量是 Opus 4.6 的 3 倍
      • CursorBench:从 58% 提升到 70%
      • 93 任务编码基准:整体解决率提升 13%,新增解决 4 个此前未解决的任务。
      • 代码质量、测试质量、代码审查召回率均有双位数提升。
    • 可以更自信地将复杂编码工作交给它,甚至自主构建完整系统(如 Rust 文本转语音引擎)。
  • 视觉(多模态)能力大幅增强
    • 支持最高 2576 像素 长边图像(约 375 万像素),是之前模型的 3 倍以上。
    • 在处理化学结构、技术图表、密集截图、数据提取等方面表现更好。
    • 在视觉敏锐度基准(XBOW)上从 54.5% 飙升至 98.5%
  • 其他实用提升
    • 文档推理(如 OfficeQA Pro)错误率降低 21%
    • 金融分析、代理工作流、角色一致性更强。
    • 指令遵循更字面化(需要重新调优提示)。
    • 支持文件系统式长期记忆,适合多会话复杂项目。
    • 整体更“有品位”和创意,适合制作界面、幻灯片、专业文档等。

性能定位

Claude Opus 4.7 在多个内部和第三方基准中超越了 Opus 4.6,并在代理式编码金融代理长上下文推理等领域达到或并列当前最强水平。

它虽然不如 Anthropic 内部的 Mythos Preview 模型全面,但作为公开可用的模型,已是当前最强通用旗舰之一,尤其在需要严谨性和可靠性的场景中。

可用性与定价

  • 立即可用Claude.ai、API(模型 ID: claude-opus-4-7)、Amazon Bedrock、Google Vertex AI、Microsoft Foundry 等平台。
  • 定价:与 Opus 4.6 相同 —— 输入 $5 / 百万 token,输出 $25 / 百万 token
  • 注意:新分词器可能使 token 消耗增加 1.0–1.35 倍,但整体效率因模型更智能而提升。
  • 建议从 Opus 4.6 迁移的用户可参考 Anthropic 提供的迁移指南。

安全与对齐

安全水平与 Opus 4.6 相当,欺骗性、奉承性和滥用配合率较低。

模型更诚实、对提示注入的抵抗力更强,但仍有一些领域(如某些受控物质的危害建议)存在温和不足。

Anthropic 强调它“总体上可靠且对齐良好”,但 Mythos Preview 在对齐方面仍更优。

网络安全相关能力被有意控制,并设有专门的验证程序供专业人士使用。

总结

Claude Opus 4.7 是 Anthropic 在 2026 年中期的又一次“针对性升级”,核心是让开发者能更放心地把真正复杂、长时间、需要高度可靠的编码和多模态任务交给 AI。

它特别适合专业软件工程、金融分析、文档密集型工作以及需要高自主代理的场景。

如果你是重度开发者或需要处理复杂项目的用户,值得立即尝试。相比前代,它在“能真正落地解决问题”这一点上又前进了一大步。

评论 1

500 字符剩余
Haku
Haku 2天前

太贵了,用不起

GitWatt

来都来了,顺便关注一下吧

16 帖子
11 获赞
16 粉丝
0 关注
相关推荐
精选内容