我從 @Aish_Reganti 和 @KiritiBadam 那裡獲得的關於構建成功企業 AI 產品的最大收穫: 1. AI 產品與傳統軟體在兩個基本方面有所不同:它們是非確定性的,並且你需要不斷在自主性與控制之間進行權衡。當你的產品對相同的輸入給出不同的答案並且能夠自主行動時,傳統的產品開發流程就會崩潰。 2. 自主性與控制的權衡是每個 AI 產品的核心設計決策。Aish 和 Kiriti 將這個問題框架化為一個光譜:在一端,AI 自主行動,幾乎沒有任何限制;在另一端,系統受到明確規則和人類介入的嚴格約束。大多數成功的企業 AI 產品位於中間,根據信心分數、上下文和風險動態調整控制。 3. 大多數 AI 產品失敗來自執行失誤,而不是模型限制。Aish 和 Kiriti 看到團隊在責怪底層 LLM 時,實際問題是產品範圍不清、缺少限制或用戶上手不佳。一個 5% 的幻覺模型仍然可以驅動一個偉大的產品,如果你設計用戶體驗來顯示信心分數,讓用戶驗證輸出,並限制任務。可行的見解是:在要求更好的模型之前,審核你的產品設計、評估覆蓋範圍和用戶流程。在大多數情況下,執行紀律勝過模型性能。 4. 你的 V1 AI 產品應該解決一個狹窄的高價值問題,並設置嚴格的限制。團隊因為試圖在第一次嘗試中構建通用助手或代理而失敗。選擇一個工作流程,自動化一個重複的任務,或非常好地回答一類問題。狹窄的範圍讓你能夠收集專注的反饋,更快地調整模型,並在擴展之前證明價值。廣度在你掌握核心循環後再來。 5. 對於 AI 產品來說,可觀察性和日誌記錄比傳統軟體更為關鍵,因為 AI 行為是非確定性的,且更難以調試。你應該記錄不僅僅是錯誤,還包括模型信心分數、輸入特徵、用戶修正和延遲指標。當生產中出現問題時,這些日誌是重建模型所見及其做出特定決策原因的唯一方法。提前投資於日誌記錄基礎設施,避免危機發生前的混亂。 6. 評估是必要的,但不夠充分。評估幫助你測量模型在已知測試案例上的性能,但它們無法捕捉完整的產品體驗、生產中的邊緣案例或用戶滿意度。僅依賴評估的團隊推出的產品在測試中表現良好,但在實際使用中失敗。將評估與持續監控、用戶反饋循環和可觀察性工具結合,以捕捉自動化測試所遺漏的內容。 7. “持續校準”取代了傳統的迭代產品開發周期。由於 AI 模型會漂移且用戶期望會改變,團隊必須不斷測量實際性能並調整提示、限制或模型版本。Aish 和 Kiriti 建議從第一天起就對你的產品進行儀器化,以捕捉用戶反饋和模型輸出,然後每週審查這些數據。沒有持續校準,你的 AI 產品將會悄然退化,而用戶會在你注意到之前流失。 8. AI 的持續部署意味著將模型更新和提示變更作為代碼發佈,而不是手動干預。傳統軟體部署代碼;AI 產品則部署代碼加上模型權重、提示和檢索邏輯。Aish 和 Kiriti 主張將提示和模型配置視為你 CI/CD 管道中的版本化工件,並通過評估進行自動回歸測試。這防止了 PM 在 UI 中調整提示並破壞生產的常見反模式。好處是:你可以安全地迭代模型行為,並立即回滾不良變更。 9. AI 產品失敗是因為團隊低估了數據質量的重要性。Aish 和 Kiriti 看到團隊急於微調模型或添加功能,而沒有首先審核他們的訓練和評估數據是否實際反映了現實世界的使用情況。垃圾進,垃圾出對 AI 來說適用得更為明顯:如果你的數據過時、偏見或與用戶需求不對齊,無論多少提示工程或模型調整都無法拯救你。首先要整理好你的數據。