熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
深夜說一個最近的感想
其實也不算新,還是老生常談的一個話題“做 infra 的人必須要去貼近業務,否則一切都是空中樓閣”
我介紹過很多次鄙司是 AIGC 頭部玩家,主攻二次元賽道。
我們最近面臨的一個問題是 Elasticsearch 帶來的。
我們用戶公開發佈的 Artwork 和生成任務都是可以搜索的。
最近 Elasticsearch 頻繁會出現部分 Data Node 被打滿然後連鎖搜索出現問題的情況。
那麼我們需要去怎麼樣快速的解這個問題?
在進一步討論之前我們需要思考在這個場景下,搜索這個操作的本質是什麼?
我的看法是資產管理。在 AIGC 場景下,Prompt 毫無疑問是用戶的核心資產,而對應的 Task 以及 Artwork 某種意義上算是資產的預覽(or 屬性)
那麼有了這樣一個推論後,我們便能清晰的知道,至少在目前的形態下,業務核心屬性必然不能為了技術結果讓步。
同時我們又有一個觀察,我們用戶公開發佈的 Artwork 其的可見性和 Task 是不太一樣的,Artwork 可公開檢索,也會承擔 SEO 的責任,而 Task 實際上僅用戶可見。那麼換句話講,兩者的數據的訪問頻率,資源需求都是不太一樣的。
換句話說,我們對 ES 的 Index 存在了多租的需求。但是很遺憾,按照目前的 ES 的設計,是不具備多租的能力的。
雖然長遠來說,優化查詢會是一個必然的選項,但是在當下面對超高速發展的業務,拆分 Index 為不同的集群,按照 Index 不同的屬性給不同的算力/磁盤,快速試錯會成為我們的首選。
目前這項工作正在進行中,效果未知,但是整個思考博弈的過程其實是我前幾年會很少考慮的。很多時候技術的最優解未必是業務的最優解。
最後的最後,再打一個廣告。鄙司招人,ML Engineer,ML Data/Full Stack/Backend/Marketing 等職位虛位以待。如果你想一起做一些有趣的事情,歡迎 DM,幫你老闆直達
熱門
排行
收藏