我们正在开源感知编码器视听(PE-AV),这是推动SAM Audio最先进音频分离的技术引擎。 PE-AV基于我们今年早些时候的感知编码器模型,集成了音频与视觉感知,在广泛的音频和视频基准测试中实现了最先进的结果。其原生的多模态支持可以帮助人们完成日常任务,包括声音检测和更丰富的音频-视觉场景理解。 🔗 阅读论文: 🔗 下载代码: