我們正在開源感知編碼器視聽(PE-AV),這是幫助推動SAM Audio最先進音頻分離的技術引擎。 PE-AV基於我們今年早些時候的感知編碼器模型,將音頻與視覺感知整合,實現了在各種音頻和視頻基準測試中最先進的結果。其原生的多模態支持可以幫助人們完成日常任務,包括聲音檢測和更豐富的音視覺場景理解。 🔗 閱讀論文: 🔗 下載代碼: