私の知る限り、スノは音声合成のパレートの最前線にいるようですが、音声用ではなく音楽用に設計されています。 メリット: - テキストで指定されたカスタムボイスを生成する能力:ボイスの響きや発言の仕方に関する質的な特性を記述する - 感情の扱いが上手 - 他の試したものよりも平坦でロボットっぽくない - 任意の点から生成されたサンプルを分岐・継続するルーム対応 短所: - ゆっくり - APIなし - 長い文章で一貫性を失う - スピーチのみを求めても曲に割り込んだり、背景のインストゥルメンタルを挿入したりする傾向があります(ただし、ボーカルステムをエクスポートしてインストゥルメンタルを除外することも可能です) ですので、短くてインタラクティブでないテキストを声に出して読むのにも、例えばElevenlabsにインポートできるカスタムボイスを作成するのにも理想的です。どちらの場合も、声の音や個性を細かくコントロールしたい場合に使えます。 これらの利点が多い、あるいは欠点が少ないより良い選択肢があれば、ぜひ教えてほしいです。