ドックボットがドックスを提供していますか、それともしていませんか？

長老は皆、この話チャット自慢話がとても面白いと云っている。

著者は記事で、Shopifyの電子メール通知テンプレートをアップグレードする際、Shopifyの大型言語モデル（LLM, Large Language Model）を駆動した開発ドキュメンテーションロボットにLiquidの構文に関する質問を尋ねた経験を共有しています。注文にShopify Collectiveによる発送品が含まれているかを検出したいと考えたため、ロボットは即座にorder.tagsに「Shopify Collective」が含まれているかを確認するコードを返しました。しかし、このコードは見た目では正しいものの、実際のテストでは予期した結果とは一致しなかった。通知が生成される時点ではそのタグがまだ追加されておらず、注文が後でShopifyの特定のプロセスによって追加されるためです。

さらにテストを進めた結果、注文確認メールが送信される時点で「Shopify Collective」タグは存在しなかったため、ロボットが提供したコードは無効であり、またロボットがデフォルトのドキュメント情報をもとに適当に推測したため、実際のワークフローにおけるタイミングの問題を無視していることが判明しました。著者は、ドキュメントロボットがこのような適当な対応を頻繁に行うと、速やかな回答の間違いのコストがたまに正確な情報を提供する効果を上回る可能性があると疑問を呈しています。

議論の中で多くの開発者も同様の懸念を共有しており、AIロボットが直感で回答を生成するため、不確実性がユーザーに誤った行動を引き起こす可能性があると指摘しています。ある意見では、技術的な質問に対して誤ったドキュメント回答は、全く回答がないよりも不満を生じるとしています。また、ある人からはこれを販売員が技術的な質問に答えるような、離題かつ実用性のない回答に例えています。一部のレスポンスでは、正確な操作が必要な状況では、経験に基づいて作成された公式ドキュメントがより信頼できると強調されています。

さらに、議論ではRAG（Retrieval-Augmented Generation）のような技術を用いても、速やかな回答と安定した正確性のバランスを取るのは難しいと述べられています。いくつかの発言者は、割引コードのバッチ追加などの他の機能の例を挙げて、AIの回答が文脈理解不足により変動する可能性があると説明しています。総合的な意見としては、技術ドキュメントは現実のテストと慎重な作成に基づくべきであり、幻想的な回答を生み出すロボットアシスタントに依存すべきではないとされています。

https://news.ycombinator.com/item?id=44507244