熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁

Aaron Levie
CEO @box - 利用 AI 釋放內容的力量
人工智慧將隨著時間的推移模糊許多功能之間的界限,因為你現在可以開始在堆疊的更高或更低層次上做事情,或者擴展到其他相鄰的功能。一個非常明顯的領域是,產品經理幾乎總是應該展示功能原型。

Kaz Nejatian19 小時前
我們將在 @Shopify 的所有產品經理面試中增加一個編碼環節。
我們將從 APM 面試開始。我們希望候選人在案例面試中構建他們建議的產品原型。
產品經理不構建原型是沒有藉口的。
23.59K
在Box,我們花了很多時間測試Box AI與新模型在非結構化數據上的表現,以了解它們在實際知識工作領域的表現。
從基準測試中我們看到,GPT-5在推理、數學、邏輯、編碼和其他工作領域相比於GPT-4.1有了顯著的能力提升。以下是這些改進在現實世界中應用的一些例子:
*GPT 5更好地上下文化信息。當進行數據提取時,比如在沒有貨幣標籤但有倫敦地址的發票上提取最終的美元金額,GPT 5正確地回應需要從美元到英鎊的匯率。相比之下,GPT 4.1看到最終帳單後直接返回,錯誤地假設了貨幣。
* GPT-5提供更好的多模態分析。對於一家上市公司的年度報告,GPT-5被要求從顯示公司股權組成變化的圖像中的表格中隔離一個單元格。表格頂部明確說明所有股份金額以千為單位,而GPT-5清楚地說明了這一轉換,而GPT-4.1則沒有,因表格上寫著股票而圖例上寫著股份而感到困惑。
* GPT-5在高水平的提示和數據複雜性下表現更好。當在簡歷上提取所有工作開始日期、職位名稱和雇主名稱時,GPT-5能夠提取出每一條數據,而GPT-4.1似乎感到不堪重負,未能提取出相同的字段,原因在於提示的大小和文檔的複雜性。
* GPT-5在回答時更加清晰和明確。在一份涉及6種不同服務的外包協議中,當被問及“合同中的5種具體服務”時,GPT-5會返回前5種,並詢問第六種未被提及是否是故意的。相比之下,GPT-4.1僅返回前5種,沒有任何進一步的說明,這可能會導致用戶的後續困惑。
* GPT-5在複雜領域的數據解釋能力更強。對於流式細胞術圖表,通常用於免疫學,GPT-5正確識別出高比例的死亡細胞,並給出了可能導致這種情況的合理根本原因,而GPT-4.1則給出了最少的推理,需要進一步確認才能從原始數據中得出任何猜測。
* GPT-5更能識別代碼中的不一致性。當被要求識別給定的python代碼文件中的問題時,雖然GPT-5和4.1都能識別導致故障的真實錯誤,但只有GPT-5能夠推斷出更微妙的問題,比如在程序上下文中打印不正確的變量。
這些在數學、推理、邏輯和長上下文窗口中響應質量的改進對最終用戶在日常工作中非常有幫助,但在長時間運行的AI代理中,尤其是在每一步都沒有人工參與驗證信息時,這些改進將更加明顯。
看到這些改進在最新一批AI模型中不斷湧現真是太棒了,因為這將使AI代理能夠在越來越多的關鍵任務工作領域中使用。
72.39K
顯然,我們目前正處於一個AI模型在數學、推理、邏輯、工具調用和各種特定領域任務的能力不斷提升的軌道上,隨著更多訓練數據的生成,這些能力將會變得更好。
雖然會有關於這些進步在消費者日常使用案例中會帶來多大變化的辯論,但它們*將*在許多知識工作類別中產生重大影響。它們將逐步解鎖醫療、法律、金融服務、生命科學等領域的新使用案例,模型可以可靠地執行越來越關鍵的任務。
在最近與Alex Kantrowitz的播客中,Dario Amodei提出了一個很好的框架,即如果你提高一個AI模型的能力,讓它從擁有生物化學本科學位變成擁有生物化學研究生學位,消費者群體中只有一小部分會注意到這一影響,但像輝瑞這樣的公司的企業使用案例將會因此顯著增加。
我們應該開始預期,這就是我們現在所處的AI時代。那么,這在現實世界中如何顯現呢?它將通過AI代理針對應用使用案例而顯現。AI代理用於編碼、法律工作、醫療抄寫、數據提取、保險索賠處理、滲透測試等等。
目前的機會是為特定領域和行業構建AI代理,並對該領域有深入的理解。這就是上下文工程的影響、對工作流程的深入理解、與企業數據的連接以及專門用戶界面(允許用戶部署、管理和協調這些代理)開始變得非常重要的地方。
這也意味著建立與特定行業或領域相一致的分發。這可能意味著某種形式的前向部署工程,不僅幫助客戶實施代理,還能快速了解代理優化的工作流程,並將其帶回核心平台。
最終,這些市場將由那些能夠最好地橋接當前企業流程(這些流程通常混亂且未設計為自動化)與代理集成到這些工作流程中的世界的參與者所贏得。這就是我們現在所處的AI時代。
76.91K
我們距離任何人工智慧能力的最佳穩定點還很遙遠,但諷刺的是,許多商業應用案例因為技術進步的速度而被凍結。這就是為什麼未來證明的架構如此重要。

Ethan Mollick8月11日 18:39
當人工智慧的發展達到平穩期(目前還沒有任何跡象顯示這種情況會發生),這可能實際上會加速人工智慧融入我們的生活,因為那時候更容易找出需要哪些產品和服務來補充人工智慧。目前的能力變化太快了。
3.86K
核心與背景是一個關鍵概念,值得思考在弄清楚人們將如何利用 AI 重建自己時。
公司引入“核心”功能來區分自己。這就是他們的核心產品或服務是什麼,如何向客戶銷售,驅動他們文化的事物等等。
相反地,他們外包“背景”,這是必須正確處理的基本要求,但如果處理不當只會帶來負面影響。一個簡單的思考規則是,客戶是否會注意到公司是否直接自己執行該功能。
企業軟體幾乎總是屬於“背景”。這些是像 CRM 或人力資源系統、基礎設施、數據管理等領域。這些對於大規模運營業務是必要的,但在嘗試自己開發時,幾乎不會有優勢。只有少數例外存在,幾乎總是因為你需要一個解決方案來服務你的“核心”,而沒有供應商提供(例如,如果你需要為垂直整合的供應鏈定制軟體)。
無論公司如何開始,隨著時間的推移,他們幾乎總是會將工作和價值在核心與背景之間分開。這是他們保持競爭力並最終將資源分配到最佳領域的唯一方法。
因此,即使一家公司*可以*用 AI 重寫他們的企業軟體,他們基本上也不會這樣做。版本更新、安全性、合規功能、錯誤、服務水平協議、所需的專業服務等等,這些都會使其投資回報率為負。
正如 bucco 所指出的,真正的風險是這些工具的更好版本,它們是以 AI 為首的。這是從破壞的角度需要注意的地方。


BuccoCapital Bloke8月10日 01:04
我認為公司建立自己的記錄系統 - ERP、ITSM、CRM 等 - 的風險非常低。
公司並不愚蠢。他們在這方面沒有能力,風險極高,無論多麼簡單,他們仍然需要維護和優化,這最終會分散他們的實際業務注意力。這就是為什麼 AWS、Azure 和 GCP 這些業務如此成功的原因。
我真心認為,認為這樣的人要麼從未在真正的企業工作過,要麼只是生活在電子表格中,對企業軟體的購買和銷售一無所知。
然而,我確實認為,傳統 SaaS 供應商被 AI 原生競爭者超越的風險要高得多。
Figma 吃掉了 Adobe 的午餐,因為協作是雲端的原生功能,而 Adobe 無法適應。這種風險應該讓這些傳統記錄系統夜不能寐,而不是那些在編碼替代品的人。
195.76K
很棒的討論。無論AI代理能做什麼,它也可以被欺騙去做。你應該假設如果代理可以訪問數據,那麼用戶最終也能獲得這些數據。代理安全性、訪問控制和確定性防護措施將是至關重要的。

mbg8月8日 21:49
我們劫持了微軟的 Copilot Studio 代理,讓它們洩露出私密知識,揭示它們的工具,並讓我們使用它們來導出完整的 CRM 記錄。
這些是自主代理.. 沒有人參與其中。
#DEFCON #BHUSA @tamirishaysh

90.69K
關於企業軟體的未來有很多討論。以下是我認為的發展趨勢。
對於那些錯誤成本高的確定性工作流程,企業傾向於選擇核心平台來處理組織中最常見、最重要和可重複的功能。想想薪資、ERP、CRM、ITSM、客戶支持、ECM/文檔管理等等。這些是你希望每次都以相同方式完成的領域。
這些平台必須從設計上以AI為首,這意味著它們將擁有用戶界面,專門用於通過AI與工作流程和數據進行交互,並完全設計為AI代理在平台上運作。隨著時間的推移,我們可以預期這些系統的使用將更偏向於AI代理,而不僅僅是人類。用戶仍然使用座位模型,但消耗成為代理的模型。一些現有企業將能夠達到最終狀態,但其他企業則無法快速適應而被淘汰。
然後將會出現一批專門為自動化特定類型工作(尤其是非確定性工作)而設計的代理專用公司。它們的商業模式將更加傾向於消耗。想想Claude Code或Devins(可能會有一些用於管理代理的UI層),但針對各種工作職能。我們可能會看到數百或數千個這樣的公司隨著時間的推移而出現。滲透測試、編碼、錯誤查找、合規審查、財務分析等。這是一個巨大的市場,初創公司在這些類別中會表現得相當好,因為這些類別中往往沒有任何軟體的現有企業。
我們將通過與這些代理相關的各種軟體平台(如Box AI或Agentforce)、其他系統中的API,以及將代理跨平台串聯的橫向工作流程系統(如ServiceNow、IBM Watsonx、Google Agentspace等)進行互動。
當然,用戶通常會通過橫向聊天體驗(如ChatGPT、Claude、Perplexity、Grok、Copilot等)來消耗這些代理,通過MCP或其他類型的直接連接。用戶將常常在這些橫向聊天系統中工作,根據需要從各種Agentic平台中提取代理、數據和工作流程。當需要時,他們會跳入核心平台以完成工作流程、審查信息等。
還會有一長串的體驗,讓用戶可以在需要快速應用程序或自動化用例時即時生成微型應用,當沒有明顯的軟體可以做到這一點時。這可能會直接發生在橫向聊天系統中,或在像Replit、Lovable這樣的工具中,或在工作流程自動化工具中等。我預計這更多是針對需要在多個系統之間進行粘合的高級用戶,或者在尚未存在任何軟體的情況下。
總的來說,隨著時間的推移,軟體變得越來越重要,即使我們互動的方式發生變化和擴展。就像我們輕鬆地在手機和桌面電腦之間切換一樣,即使它們可以輕易地融合,未來將提供多種與軟體互動的方式。
127.33K
雖然這個想法很吸引人,但 AI 即時生成每個 UI 的可能性可能比人們想的要小。超級自訂的好處可能無法超過每次使用應用程式時需要重新學習的麻煩,或是意外出現故障的風險。

Ben South8月9日 01:59
任何經歷過重大重新設計的人都知道,隨時生成用戶界面對於大多數產品來說並不是一件容易的事。
110.66K
AI代理的分工將對最大化代理的影響至關重要。
我們在組織中長期以來一直有分工,因為讓個別專家相互交接任務比一群通才每次都以不同方式嘗試做事更有效。AI代理呈現出相同的動態。
為了讓AI代理正常運作,您需要對他們試圖完成的任務有適量的上下文了解。這意味著需要深入的領域理解、一套可供參考的知識、清晰的指示和一套可用的工具。上下文過少,代理將會失敗。然而,隨著更多這些信息進入上下文窗口,我們知道模型可能會變得次優。
對於一個複雜的業務流程,如果您將所有的文檔、工作流程描述和指示放入上下文窗口,我們知道這最終可能導致上下文腐爛,從而導致更糟的結果。
因此,未來的邏輯架構是將代理劃分為映射到正確類型任務的原子單位,然後讓這些代理協同工作以完成他們的任務。
我們已經看到這在編碼代理中有效地發揮作用。越來越多的例子出現,人們設置子代理,這些子代理擁有代碼庫或服務區域的特定部分。每個代理負責代碼的一部分,並且有針對代碼的代理友好文檔。然後,當在該相關代碼區域需要工作時,一個協調代理會與這些子代理協調。
我們可以看到這種模式可能在未來適用於幾乎任何知識工作領域。這將使AI代理能夠用於遠不止任務特定的用例,並擴展到驅動整個企業工作流程。
即使AI模型改進到能夠處理更大的上下文窗口,並且智能水平提高,這種架構是否會消失也並不明顯。隨著能力的提高,每個代理的角色可能會擴大,但子代理之間的明確分隔線可能始終會導致更好的結果。
73.72K
最初的想法是單一的 AI 代理可以處理任意大型的工作流程。然而,似乎有效的模式是部署具有任務專業化的子代理,以避免上下文衰退。AI 代理的分工可能是未來的趨勢。

martin_casado8月5日 10:02
.@levie 提出了很好的觀察。
代理的使用與簡化的 AGI 敘事相悖,後者認為應該有更少、更強大的代理來處理越來越高層次的任務。
相反,我們的趨勢是有更多的代理,這些代理的任務範圍狹窄、定義明確且任務狹隘。通常由專業人士來執行。
67.28K
熱門
排行
收藏
鏈上熱點
X 熱門榜
近期融資
最受認可