LLaMA-Omni:低遅延・高品質な音声インタラクション、オープンソース化!

この記事は約5分で読めます。
Speech to Text - DolphinVoiceの音声認識API・SDK
Dolphin Voiceは音声認識、音声LLM、音声合成APIなど20以上の言語に対応した最先端の音声ソリューションを提供します。今すぐAPIをお試しください。

GPT-4oのリリースに伴い、音声インターフェースのVoice-Chatがますます注目を集め、低遅延・高精度なモデルのspeech-to-speechへのニーズが増加しています。LLaMA-Omniは、このようなニーズを効果的に解決する革新的な音声インタラクションモデルです。本記事では、LLaMA-Omniの技術的特長、アプリケーションシナリオ、および使用方法について詳しく解説します。

技術的特長

1. 高品質なQ&A

LLaMA-Omniは、LLaMA-3.1-8Bモデルに基づいて訓練されており、高品質なQ&A機能を確保しています。LLaMA-3.1-8Bは、同サイズクラスで比較的優れた大言語モデルであり、高品質なテキストと音声レスポンスを提供できます。

2. 同時音声とテキストレスポンス

LLaMA-Omniは、ユーザーの音声入力に基づいて音声とテキストのレスポンスを生成できます。この同期生成方式は、煩雑な中間トランスクリプトステップを必要としないため、対話の速度となめらかさを向上させます。

3. 低遅延

LLaMA-Omniの応答時間はわずか226ミリ秒であり、現在最も速い音声対音声インタラクションモデルの1つです。この低遅延特性により、ユーザーはほぼ即時のフィードバックを体験できます。

4. 高効率なトレーニング

LLaMA-Omniのトレーニングは、わずか4つのGPU環境でも3日未満で完了します。この高効率なトレーニング方式は、将来の音声言語モデルの開発を促進します。

5. 最適化されたデータセット

研究チームは、「InstructS2S-200K」というデータセットを構築し、20万の音声コマンドと対応する音声レスポンスを含めました。このデータセットにより、モデルは各种の音声入力に適応し、適切なコンテキスト認識レスポンスを生成できます。

アプリケーションシナリオ

LLaMA-Omniは、以下の音声インタラクションシナリオに適しています。

  • 音声アシスタント:ユーザーの音声コマンドにリアルタイムで応答し、高品質な音声とテキストレスポンスを提供します。
  • リアルタイム翻訳:多言語環境で、ユーザーの音声コマンドを目標言語にすばやく翻訳し、音声レスポンスを生成します。
  • 教育分野:言語学習や音声トレーニングに使用し、即时フィードバックと指導を提供します。

モデルの使用方法

モデルのダウンロード

  1. LLaMA-Omniモデルをダウンロード:
    modelscope download --model=ICTNLP/Llama-3.1-8B-Omni --local_dir ./Llama-3.1-8B-Omni
  2. whisper-large-v3をダウンロード:
    wget "https://modelscope.cn/models/ai-modelscope/large-v3.pt/resolve/master/large-v3.pt" -P models/speech_encoder/
  3. HiFi-GAN vocoderをダウンロード:
    wget https://dl.fbaipublicfiles.com/fairseq/speech_to_speech/vocoder/code_hifigan/mhubert_vp_en_es_fr_it3_400k_layer11_km1000_lj/g_00500000 -P vocoder/
    wget https://dl.fbaipublicfiles.com/fairseq/speech_to_speech/vocoder/code_hifigan/mhubert_vp_en_es_fr_it3_400k_layer11_km1000_lj/config.json -P vocoder/

モデルの推論

  1. 音声コマンドファイルをomni_speech/infer/examplesディレクトリに整理します。
  2. 推論スクリプトを実行:
    bash omni_speech/infer/run.sh omni_speech/infer/examples

モデルの微調整

  1. ms-swiftをインストール:
    git clone https://github.com/modelscope/ms-swift.git
    cd ms-swift
    pip install -e .[llm]
  2. aishell1-zh-miniデータセットを使用して微調整:
    CUDA_VISIBLE_DEVICES=0 swift sft \
     --model_type llama3_1-8b-omni \
     --model_id_or_path ICTNLP/Llama-3.1-8B-Omni \
     --sft_type lora \
     --dataset aishell1-zh-mini#5000
  3. 微調整後の推論:
    CUDA_VISIBLE_DEVICES=0 swift infer \
       --ckpt_dir output/llama3_1-8b-omni/vx-xxx/checkpoint-xxx \
       --load_dataset_config true

未来の見通し

LLaMA-Omniのリリースは、音声インタラクション技術の大きな進歩を表しています。技術の絶え間ない発展に伴い、LLaMA-Omniは更多の分野でそのポテンシャルを発揮し、音声インタラクション技術の普及と革新を推進するでしょう。未来の研究では、モデルのパフォーマンスを一段向上させ、更多的な言語と方言をサポートし、マルチモーダルインタラクションの可能性を探求する予定です。

おわりに

LLaMA-Omniは、低遅延・高品質な音声インタラクションモデルとして、音声アシスタントやインタラクティブエージェントなどのリアルタイムアプリケーションに理想的なソリューションを提供しています。そのオープンソースの特性により、開発者や研究者は容易に二次開発やアプリケーション拡張を行うことができます。技術の絶え間ない進歩に伴い、LLaMA-Omniが更多のアプリケーションシナリオで大いに活躍することを期待しています。