AI agents get office tasks wrong around 70% of the time, and a lot of them aren't AI at all

202510评: 这个业界真的变化快, 快到跟不上

报导指出,由于成本日益攀升、商业价值不明与风险控管不足,根据 Gartner 预测,到 2027 年底将有超过 40% 的代理式人工智能(agentic AI,新创名称)项目将被取消,即使保留下来的约 60% 项目,其任务成功率仍仅落在 30% 至 35% 之间。代理式 AI 指的是通过机器学习模块连接各种应用程序与 API,来自动化办公流程,如搜索与分析电子邮件中夸大描述的内容。文章指出,尽管此概念在科幻作品中,如《星舰迷航记:下一代》中 Captain Picard 说出的「Tea, Earl Grey, hot」命令,曾让人对未来充满想像,但现实中这些技术尚未达到理想效率,且存在着资安与隐私风险。

为检验代理式 AI 的实际表现,卡内基梅隆大学(CMU)研究人员创建了仿真小型软件公司的测试平台 TheAgentCompany,用以评估 AI 代理在网页浏览、撰写程序、操作应用程序与内部沟通等任务中的完成度。测试结果显示,最佳模型 Gemini-2.5-Pro 也仅达到约 30.3% 的完全任务成功率,而其他模型表现则更为不理想,暴露出处理接口弹跳、消息发送失误等缺陷。同时,Salesforce 团队针对客户关系管理(CRM,Customer Relationship Management)所设计的 CRMArena-Pro 测试平台指出,即便是领先的长程语言模型(LLM)代理,在单轮对话中成功率约 58%,多轮交互时则仅约 35%,且各模型普遍缺乏机密数据保护能力,进一步增加企业资安风险。

此外,报导揭露市场上许多宣称拥有代理智能的新产品,其实多半只是将传统的 AI 助手、机器流程自动化(RPA)或聊天机器人进行再包装,真正具备代理能力者仅占众多供应商中的极少部分。虽然未来 Gartner 预期到 2028 年,每日工作决策中约有 15% 将由 AI 代理自动运行,且企业软件产品中有 33% 将搭载此技术,但目前的成果仍无法满足复杂业务需求,部份应用领域(如处理电子邮件)更容易因失误而产生严重后果。

讨论中有开发者与业界人士对现阶段代理式 AI 的前景提出不同看法。有评论认为,现今进展或许正出现平台饱和或进入「人机合作」(human in the loop)时代,并指代理式 AI 其实与既有的自动化工具并无本质差异;另有意见主张,从函数库(library)而非框架(framework)的角度构建代理技术,才能在保有弹性与可组合性的同时,确保运行结果具备可预期性。部分评论亦提到,尽管代理式 AI 在某些应用上能略为提高工作效率,但在速度、上下文窗口长度及成本方面仍需重大的技术突破,方能真正满足办公自动化的实际需求。

https://news.ycombinator.com/item?id=44412349