OpenAI推出了一个基准测试框架,旨在衡量AI代理在检测、缓解甚至利用加密货币安全漏洞方面的有效性OpenAI推出了一个基准测试框架,旨在衡量AI代理在检测、缓解甚至利用加密货币安全漏洞方面的有效性

OpenAI 让 AI 代理互相对抗以红队测试智能合约

2026/02/19 09:26
阅读时长 11 分钟
Openai Pits Ai Agents Against Each Other To Red-Team Smart Contracts

OpenAI推出了一个基准测试框架,旨在衡量AI代理在检测、缓解甚至利用加密智能合约安全漏洞方面的有效性。该项目名为"EVMbench:评估AI代理在智能合约安全方面的表现",是与Paradigm和OtterSec合作发布的,这两个组织在区块链安全和投资方面拥有深厚的经验。该研究针对从40次智能合约审计中精选的120个潜在弱点评估AI代理,不仅要量化检测和修补能力,还要量化这些代理在受控环境中的理论利用潜力。

重点要点

  • EVMbench针对从40次智能合约审计中收集的120个漏洞测试AI代理,重点关注来自开源审计竞赛的漏洞。
  • 在测试的模型中,Anthropic的Claude Opus 4.6以平均$37,824的检测奖励领先,其次是OpenAI的OC-GPT-5.2($31,623)和Google的Gemini 3 Pro($25,112)。
  • OpenAI将该基准测试视为衡量AI在"具有经济意义的环境"中的表现的一步,而不仅仅是玩具任务,突出了攻击者和防御者在加密安全领域的实际影响。
  • 研究人员指出,智能合约保护着数十亿美元的资产,强调了AI工具在进攻和防御活动中的战略价值。
  • 行业观察人士将这些发展与关于AI驱动支付和稳定币在日常交易中作用的更广泛讨论联系起来,主要高管预测未来几年代理使用将会增长。
  • 2025年的加密安全事件数据强调了这项工作的背景,显示资金通过漏洞和攻击持续流动,加强了对强大的AI审计和防御机制的需求。

AI代理的检测奖励在随附研究的OpenAI PDF中有详细说明,该文件还描述了评估方法和用于模拟现实世界智能合约风险的场景。作者强调,虽然AI代理已经发展到可以自动化各种常规任务,但评估它们在"具有经济意义的环境"中的表现对于了解它们在生产系统压力下的表现至关重要。

OpenAI指出,它预计代理技术将扩大支付和结算的范围,包括在自动化工作流程中使用的稳定币。围绕AI支付的讨论超越了安全测试,延伸到自主系统如何参与日常金融活动这一更广泛的问题。该公司自己的预测表明,代理支付可能会变得更加普遍,将AI能力建立在涉及日常消费者交易的实际用例中。

与基准测试结果同步,Circle首席执行官Jeremy Allaire公开预测,未来五年内可能有数十亿AI代理使用稳定币进行日常支付交易。这一观点与加密圈中的一个反复出现的主题相交:加密货币成为AI代理原生货币的潜力,这一叙述已经引起了行业领导者和投资者的显著关注。虽然这些预测仍然是推测性的,但潜在趋势是明确的——AI自动化正在从实验室转向交易层,在那里它可能重塑价值在网络中的流动方式。

该研究发布之际,加密安全继续成为投资者的重要风险因素。关于2025年加密资金遭受攻击的数据点——攻击者窃取了约34亿美元——突显了改进工具和更快、更可靠的修补机制的紧迫性。EVMbench框架在一定程度上被定位为衡量AI代理是否能有意义地大规模贡献防御能力,减少利用机会并加速威胁缓解的方法。

为了构建基准测试,研究人员利用了跨越40次智能合约审计的120个精选漏洞,许多弱点可追溯到开源审计挑战。OpenAI认为,该基准测试将有助于跟踪AI在大规模识别和缓解合约级弱点方面的进展,提供一种标准化的方法来比较未来AI模型的演变。该研究还提供了一个视角,说明如何将AI应用于各种智能合约架构的风险评估标准化,而不仅仅关注孤立案例。

智能合约不是为人类而建:Dragonfly

在X上的一个同期帖子中,Dragonfly的合伙人Haseeb Qureshi认为,加密货币取代财产权和传统合约的承诺从未实现,不是因为技术失败,而是因为它从未考虑到人类直觉。他强调了在排水钱包和其他攻击载体仍然是持续威胁的环境中签署大额交易所带来的持续恐惧,这与传统银行转账相对更顺畅的体验形成鲜明对比。

Qureshi认为,加密交易的下一阶段可能由AI中介的自动驾驶钱包实现。此类钱包将监控风险、管理复杂操作,并代表用户自主应对威胁,有可能减少当今大额转账的摩擦和恐惧。

从这个帖子中得出的更广泛结论是,AI代理可能在转变人们与加密货币互动的方式中发挥关键作用——从手动、容易出错的交易转向可以随着采用而扩展的自动化、风险意识流程。随着AI代理开始展示在处理安全问题方面的更多能力,即使底层技术继续成熟,用户也可能看到去中心化金融工作流程的可靠性和弹性得到改善。

接下来要关注的内容

  • 在其他AI模型和架构中发布和独立复制完整的EVMbench数据集。
  • 审计师、交易所和DeFi项目更广泛地采用AI辅助审计工作流程,以加强安全态势。
  • 探索代理钱包和自主支付流程,包括AI管理资产的监管和合规考虑。
  • 随着新版本的推出,对更多AI系统进行后续基准测试,跟踪检测准确性和修补速度的改进。

来源与验证

  • OpenAI: EVMbench: Evaluating AI Agents on Smart Contract Security — PDF: https://cdn.openai.com/evmbench/evmbench.pdf
  • OpenAI: Introducing EVMbench — https://openai.com/index/introducing-evmbench/
  • Crypto security losses in 2025 (reporting coverage): https://cointelegraph.com/news/crypto-3-4-billion-losses-2025-wallet-hacks
  • Dragonfly: Haseeb Qureshi on AI and crypto UX (X post): https://x.com/hosseeb/status/2024136762424185208
  • China's AI lead and crypto implications (analysis): https://cointelegraph.com/news/china-ai-lead-future
  • AI Eye — IronClaw and AI bot developments in Polymarket coverage: https://cointelegraph.com/magazine/ironclaw-secure-private-sounds-cooler-openclaw-ai-eye/

关键数据和下一步

EVMbench研究表明,大型语言模型和相关AI代理开始在智能合约领域执行有意义的安全工作,模型之间存在明显可量化的差异。Claude Opus 4.6在平均检测奖励方面的领先地位表明,某些架构可能更善于在复杂的合约逻辑中发现和缓解漏洞,而其他架构则落后,提供了研究人员可能希望完善的一系列能力。该项目中多个行业合作伙伴的参与强调了日益增长的共识,即AI安全和自动化风险管理可能成为去中心化环境中大规模发展的关键。

随着领域的发展,观察者将关注AI代理从检测到修复的过渡速度,以及这些代理是否能在实时系统中可靠运行而不引入新风险。关于AI驱动钱包和自主支付的对话涉及围绕安全治理、用户同意和监管协调的更广泛问题。如果OpenAI及其合作伙伴所建议的轨迹继续下去,AI辅助工具可能成为未来加密基础设施的核心组成部分,以有意义的方式改变风险计算和用户体验。下一轮基准测试以及实际部署将有助于确定这一愿景实现的速度以及必须伴随的保障措施。

本文最初以OpenAI Pits AI Agents Against Each Other to Red-Team Smart Contracts发布在Crypto Breaking News上——您值得信赖的加密新闻、Bitcoin新闻和区块链更新来源。

市场机遇
Smart Blockchain 图标
Smart Blockchain实时价格 (SMART)
$0,004388
$0,004388$0,004388
-2,11%
USD
Smart Blockchain (SMART) 实时价格图表
免责声明: 本网站转载的文章均来源于公开平台,仅供参考。这些文章不代表 MEXC 的观点或意见。所有版权归原作者所有。如果您认为任何转载文章侵犯了第三方权利,请联系 service@support.mexc.com 以便将其删除。MEXC 不对转载文章的及时性、准确性或完整性作出任何陈述或保证,并且不对基于此类内容所采取的任何行动或决定承担责任。转载材料仅供参考,不构成任何商业、金融、法律和/或税务决策的建议、认可或依据。