OuteTTS-1.0-0.6B：音声合成の新時代を開く

Speech to Text - DolphinVoiceの音声認識API・SDK

Dolphin Voiceは音声認識、音声LLM、音声合成APIなど20以上の言語に対応した最先端の音声ソリューションを提供します。今すぐAPIをお試しください。

今日、人工知能技術の急速な発展に伴い、音声合成技術は人間と機械のインターフェースとして、我们的生活と仕方を前所没有のスピードで革新しています。スマートフォンの音声アシスタントからオーディオブック、ラジオドラマ、バーチャルYouTuberに至るまで、高品質で自然な音声生成のニーズは益々高まっています。本日は、音声合成分野で注目を集めている革新的モデル、OuteTTS-1.0-0.6Bにスポットライトを当て、その魅力と可能性を探っていきましょう。

一、モデル紹介
二、クイックスタートガイド
三、マルチリンガル能力
四、使用推奨
五、モデル仕様
六、倫理的使用ガイドライン
七、まとめ

一、モデル紹介

OuteTTS-1.0-0.6Bは、OuteAIチームによって開発されたコンパクトな音声生成モデルです。音声合成と音声克隆において 획期的な進歩を実現し、より小さいモデルサイズながらも、パワフルで正確かつユーザーにやさしいエクスペリエンスを提供します。このモデルは、ディープラーニング技術を基盤としており、大量のオーディオデータを用いて訓練が行われています。これにより、音声の音色、リズム、イントネーションなどの重要な特徴を正確に捉え、実にリアルで表現力豊かな音声を生成できます。そのすぐれたパフォーマンスと広い适用範囲から、OuteTTS-1.0-0.6Bは音声技术の応用に新たな可能性を切り開いています。

二、クイックスタートガイド

（一）インストール

OuteTTSの旅を开始する第一歩は、Pythonパッケージをインストールすることです。以下のコマンドを入力するだけで、簡単にインストールを完了させることができます：

pip install outetts

（二）基础设定と音声生成

以下の簡潔で明解なコード例を参考に、すぐに音声を生成してファイルに保存することができます：

from outetts import Interface, ModelConfig, GenerationConfig, Backend, InterfaceVersion, Models, GenerationType

# インターフェースを初期化
interface = Interface(
    ModelConfig.auto_config(
        model=Models.VERSION_1_0_SIZE_0_6B,
        backend=Backend.HF,
    )
)

# デフォルトの英語のスピーカープロファイルをロード
speaker = interface.load_default_speaker("EN-FEMALE-1-NEUTRAL")

# 音声を生成してファイルに保存
output = interface.generate(
    GenerationConfig(
        text="Hello, how are you doing?",
        speaker=speaker,
    )
)
output.save("output.wav")

このコードでは、必要なモジュールをインポートした後、OuteTTSのインターフェースを初期化し、デフォルトの英語スピーカープロファイルをロードします。最後に、generateメソッドを呼び出して音声を生成し、output.wavファイルとして保存します。簡単なコードで、OuteTTSの基本的な音声生成功능を体験することができます。

（三）バッチ生成設定

大量のテキストを処理する必要がある場合、OuteTTSのバッチ生成功능が役立ちます。以下にバッチ生成のコード例を示します：

from outetts import Interface, ModelConfig, GenerationConfig, Backend, GenerationType

if __name__ == "__main__":
    # バッチ処理対応のバックエンドでインターフェースを初期化
    interface = Interface(
        ModelConfig(
            model_path="OuteAI/OuteTTS-1.0-0.6B-FP8",
            tokenizer_path="OuteAI/OuteTTS-1.0-0.6B",
            backend=Backend.VLLM
            # EXL2ASYNCを使用する场合、backend=Backend.EXL2ASYNC + exl2_cache_seq_multiply={GenerationConfigのmax_batch_sizeと同じにする}
            # LLAMACPP_ASYNC_SERVERを使用する场合、backend=Backend.LLAMACPP_ASYNC_SERVER とし、GenerationConfigでserver_hostを指定する
        )
    )

    # スピーカープロファイルをロード
    speaker = interface.load_default_speaker("EN-FEMALE-1-NEUTRAL") # カスタムスピーカーをロード/作成することもできる

    # バッチモードで音声を生成
    # メモ：EXL2ASYNC、VLLM、LLAMACPP_ASYNC_SERVERでは、バッチが自动的に選択されます。
    output = interface.generate(
        GenerationConfig(
            text="This is a longer text that will be automatically split into chunks and processed in batches.",
            speaker=speaker,
            generation_type=GenerationType.BATCH,
            max_batch_size=32,       # GPUメモリとサーバー容量に応じて調整する
            dac_decoding_chunk=2048, # DACデコードのチャンクサイズを調整する
            # LLAMACPP_ASYNC_SERVERを使用する场合、以下を追加する：
            # server_host="http://localhost:8000" # サーバーアドレスを指定する
        )
    )

    # ファイルに保存
    output.save("output_batch.wav")

このコードでは、バッチ処理対応のバックエンド（例えばVLLM）を指定してインターフェースを初期化し、スピーカープロファイルをロードします。GenerationConfigでgeneration_typeをBATCHに設定し、max_batch_sizeやdac_decoding_chunkなどのパラメータを調整することで、バッチ生成のパフォーマンスを最適化できます。最後に、生成された音声をファイルに保存します。バッチ生成功機能により、OuteTTSは大量のテキストを効率的に処理し、大規模な音声生成ニーズを満たすことができます。

三、マルチリンガル能力

OuteTTS-1.0-0.6Bは、英語、中国語、オランダ語、フランス語、グルジア語、ドイツ語、ハンガリー語、イタリア語、日本語、韓国語、ラトビア語、ポーランド語、ロシア語、スペイン語を含む多种の言語をサポートする優れたマルチリンガル能力を备えています。これにより、様々な言語环境においてユーザーに直感的で便利な音声サービスを提供できます。

さらに、このモデルは一定程度のクロスリンガル音声生成能力も持ち合わせており、未対応の言語においても一定の成果を収めることができます。ただし、モデルはリファレンススピーカーに依存しているため、例えば英国英語のアクセントを持つリファレンススピーカーを使用する場合、他の言語の音声生成にもそのアクセントが反映されることがあることに注意が必要です。したがって、クロスリンガルアプリケーションを展開する際には、目標言語のスピーカープロファイルの作成が推奨されます。これにより、目標言語においてより自然で、よりネイティブに近い音声生成効果が得られます。

四、使用推奨

（一）スピーカーリファレンスの使用

OuteTTS-1.0-0.6Bは、スピーカーリファレンスと共に使用することで、より自然で質の高い音声生成が可能となります。リファレンススピーカーを提供することで、モデルはそのスピーカーの声の特徴、情感、スタイル、アクセントを引き継ぎ、より一貫性の高い音声を生成することができます。リファレンススピーカーがいない場合、モデルはランダムな声の特徴を生成するため、出力音声の品質が低下する可能性があります。したがって、高品質な音声合成を実現するためには、適切なスピーカーリファレンスの準備が重要です。

（二）マルチリンガルアプリケーション

マルチリンガルアプリケーションにおいては、目标言語に合わせてスピーカープロファイルを作成することが推奨されます。これにより、目标言語においてより良い結果を得ることができます。リファレンススピーカーの言語特性が音声生成に影響を与えることがあるためです。例えば、日本語のスピーカープロファイルを使用して中国語の音声を生成する場合、日本語のアクセントや発音特性が反映される可能性があります。したがって、各言語のスピーカープロファイルを用意することで、各言語特有のアクセントや発音をより正確に再現し、より自然でハイクオリティな音声合成を実現できます。

（三）最適なオーディオ長さ

OuteTTS-1.0-0.6Bは、单一ランで約42秒（約8192トークン）のオーディオ生成が最も効果的です。この長さを超えると、モデルのパフォーマンスが低下し、生成される音声の品質が低下する可能性があります。リファレンススピーカーのオーディオ長さが10秒の場合、有効なコンテキスト長さは約32秒に減少します。したがって、オーディオ生成時にリファレンススピーカーの長さを考慮に入れ、モデルが十分なコンテキスト情報を活用できるように、適切なオーディオ長さを設定することが重要です。

（四）温度設定の推奨

実験によれば、温度値を0.4に設定することが、サンプリング設定の条件下で正確さと自然さのバランスを取る上で理想的な出発点となります。ただし、特定のボイスリファレンスにおいては、温度値をわずかに上げることで、音声の表現力が増し、より豊かな情感を表現することができます。逆に、温度値を下げることで、特定のボイスの特性をより正確にコピーすることができます。したがって、実際のアプリケーションでは、具体的な要件やボイスリファレンスの特性に応じて、温度値を調整することで、最適な音声生成結果を得ることができます。

（五）スピーカーエンコードの確認

クローン音声の品質が不十分な場合、以下のコードを用いてエンコードされたスピーカーサンプルを確認することができます。

interface.decode_and_save_speaker(speaker=your_speaker, path="speaker.wav")

DACオーディオ再構成モデルはlossyであることに注意が必要です。サンプルにclipping、過度の音量、または異常な声の特徴があると、エンコード問題が発生し、出力品質に影響を及ぼす可能性があります。したがって、リファレンススピーカーを使用する際には、その品質が良好であることを確認し、これらの問題を回避することで、音声クローンの成功率と品質を向上させることができます。

（六）サンプリング設定

OuteTTSモデルの最適な結果を得るために、以下のサンプリング設定をお勧めします。

パラメータ	値
温度	0.4
重複ペナルティ	1.1
重複範囲	64
Top-k	40
Top-p	0.9
Min-p	0.05

五、モデル仕様

OuteTTS-1.0-0.6Bの主要なモデル仕様は以下の通りです。

モデル	トレーニングデータ	コンテキスト長さ（トークン）	サポート言語
Llama-OuteTTS-1.0-1B	60,000時間のオーディオ	8192	23以上の言語
OuteTTS-1.0-0.6B	20,000時間のオーディオ	8192	14以上の言語

六、倫理的使用ガイドライン

OuteTTS-1.0-0.6Bの技術的便益を享受する的同时に、以下の伦理工学的ガイドラインを遵守することが求められます。

（一）想定された用途

このモデルは、アクセシビリティ、クリエイティブ性、コミュニケーションを向上させる合法的なアプリケーションを目的としています。

（二）禁止された使用法

个人の明示的な同意なしにその人を模倣すること。
悪意のある目的で意図的に誤解を招く、虚偽の、または欺骗的なコンテンツ（例えば、ディープフェイク）を作成すること。
有害な、憎しみに満ちた、いやがらせの、または中傷的な素材を生成すること。
个人の明示的な事前承諾なしに、その人の声を克隆すること。
適用される现地の、国家の、または国際的な法律、規制、または著作権に违反するあらゆる使用法。

（三）责任

ユーザーは生成するコンテンツとその使用方法について責任を负います。合成メディアの潜在的な影响を十分に考虑し、技术の合理的かつ合法的な应用を确保することが求められます。

七、まとめ

OuteTTS-1.0-0.6Bは、すぐれたマルチリンガル能力、効率的なバッチ生成パフォーマンス、豊富なカスタマイズオプションを备えた革新的な音声生成モデルです。スマートフォンの音声アシスタント、オーディオコンテンツ制作、教育分野などにおいて、ユーザーに高品質で自然な音声サービスを提供し、エクスペリエンスとコンテンツ制作の効率性を大幅に向上させることができます。技术の力を借りて、人类の创造性和表现力をさらに引き出します。ただし、この強力なツールを利用する際には、技术的伦理工学的責任を常に意识し、技术の合理的な应用を确保しなければなりません。OuteTTS-1.0-0.6Bの强力な機能を亲自体験し、その様々な应用场景を探索することで、音声インタラクションにおける新たな革新を実感することができます。