AI agents get office tasks wrong around 70% of the time, and a lot of them aren't AI at all

202510評: 這個業界真的變化快, 快到跟不上

報導指出,由於成本日益攀升、商業價值不明與風險控管不足,根據 Gartner 預測,到 2027 年底將有超過 40% 的代理式人工智慧(agentic AI,新創名稱)專案將被取消,即使保留下來的約 60% 專案,其任務成功率仍僅落在 30% 至 35% 之間。代理式 AI 指的是透過機器學習模組連線各種應用程式與 API,來自動化辦公流程,如搜尋與分析電子郵件中誇大描述的內容。文章指出,儘管此概念在科幻作品中,如《星艦迷航記:下一代》中 Captain Picard 說出的「Tea, Earl Grey, hot」命令,曾讓人對未來充滿想像,但現實中這些技術尚未達到理想效率,且存在著資安與隱私風險。

為檢驗代理式 AI 的實際表現,卡內基梅隆大學(CMU)研究人員建立了模擬小型軟體公司的測試平臺 TheAgentCompany,用以評估 AI 代理在網頁瀏覽、撰寫程式、操作應用程式與內部溝通等任務中的完成度。測試結果顯示,最佳模型 Gemini-2.5-Pro 也僅達到約 30.3% 的完全任務成功率,而其他模型表現則更為不理想,暴露出處理介面彈跳、訊息傳送失誤等缺陷。同時,Salesforce 團隊針對客戶關係管理(CRM,Customer Relationship Management)所設計的 CRMArena-Pro 測試平臺指出,即便是領先的長程語言模型(LLM)代理,在單輪對話中成功率約 58%,多輪互動時則僅約 35%,且各模型普遍缺乏機密資料保護能力,進一步增加企業資安風險。

此外,報導揭露市場上許多宣稱擁有代理智慧的新產品,其實多半隻是將傳統的 AI 助手、機器流程自動化(RPA)或聊天機器人進行再包裝,真正具備代理能力者僅佔眾多供應商中的極少部分。雖然未來 Gartner 預期到 2028 年,每日工作決策中約有 15% 將由 AI 代理自動執行,且企業軟體產品中有 33% 將搭載此技術,但目前的成果仍無法滿足複雜業務需求,部份應用領域(如處理電子郵件)更容易因失誤而產生嚴重後果。

討論中有開發者與業界人士對現階段代理式 AI 的前景提出不同看法。有評論認為,現今進展或許正出現平臺飽和或進入「人機合作」(human in the loop)時代,並指代理式 AI 其實與既有的自動化工具並無本質差異;另有意見主張,從函式庫(library)而非框架(framework)的角度構建代理技術,才能在保有彈性與可組合性的同時,確保執行結果具備可預期性。部分評論亦提到,儘管代理式 AI 在某些應用上能略為提高工作效率,但在速度、上下文視窗長度及成本方面仍需重大的技術突破,方能真正滿足辦公自動化的實際需求。

https://news.ycombinator.com/item?id=44412349