軽量なのに高性能——SenseVoice Small、多言語音声理解を手のひらに

この記事は約4分で読めます。

巨大モデルが主流となり、音声理解は GPU と膨大な演算力の独占物語に見えていた。だが、阿里巴巴达摩院が ModelScope に公開したばかりの SenseVoice Small は、わずか 200 MB にも満たない「ポケットサイズ」で多言語音声認識、言語識別、感情認識の三つのタスクをこなし、CPU だけでリアルタイム推論が可能。端末サイドの開発者にも、エンタープライズ級の能力を届ける。

小さなボディ、大きなパワー

SenseVoice Small の「小ささ」は隅々に宿る。ローカルパッケージは 200 MB に届かず、pip 一行でインストール完了。Core i7-12700H ノートでも 1 秒の音声を 0.08 秒で処理し、メモリ占有も 500 MB 前後。Raspberry Pi 4B でも余裕で動く。低レイテンシ、低消費電力、低ハードル——それが最初に感じる印象だ。

推論一回で三つの答え

音声を流し込めば、SenseVoice Small は同時にテキスト、言語、感情を返す。中国語、英語、日本語、韓国語、広東語、呉語、閩南語——主要七言語・方言をカバー。公開中国語テストセットでは文字誤り率 3.4%、言語識別 Top-1 精度 96%、感情五クラス F1 92%。かつて ASR・LID・SER の三連モデルで回していた工程が、たった一つのモデル、たった一度の推論で済む。

三分で動かす、五行以内で実行

ターミナルを開き、依存関係をインストール。

pip install modelscope torch torchaudio

五行のコードを書くだけ。

from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasks

asr = pipeline(
    Tasks.auto_speech_recognition,
    model='iic/SenseVoiceSmall'
)

print(asr('demo.wav'))

エンターキーを押すと、すぐに結果が飛び出る。

{
  "text": "ModelScope 最高だね",
  "language": "ja",
  "emotion": "happy",
  "confidence": 0.97
}

煩雑な設定も GPU の申請も不要。誰でも数分で多言語音声理解をアプリケーションに組み込める。

実戦場面での嬉しさ

オンライン会議にリアルタイム字幕が必要?クライアントに SenseVoice Small を組み込めば、レイテンシ 300 ms 以内、オフラインでも字幕が出し続ける。ショート動画の海外展開で、多言語ユーザーを相手にする?英語・日本語・韓国語・広東語を一本のモデルで捌き、複数 ASR の運用コストを大幅削減。カスタマーサービスの音声検品?録音をまとめて投げれば、テキストと感情タグが一度に返ってくる。パイプラインが短くなり、精度は五ポイント向上した。

限界と未来

もちろん、軽量化にはトレードオフもある。30 秒を超える長音声は事前に VAD でセグメント化する必要がある。音楽や高ノイズ環境では精度が下がる。公式ロードマップによれば、タイ語、ベトナム語、ドイツ語が年内に追加される。フロントエンドのノイズリダクションが実装されれば、利用シーンはさらに広がる。

終わりに

業界が「より大きく」を競うなか、SenseVoice Small は「十分で軽量」を極めた。中小チームや個人開発者にも、エンタープライズ級の多言語音声理解を届ける。GPU も大量データも複雑なデプロイも不要。世界の声を理解し、端末サイドで動かしたいなら、今すぐ ModelScope で SenseVoice Small を試してみてほしい。

会社名:株式会社Dolphin AI

Speech to Text - DolphinVoiceの音声認識API・SDK
Dolphin Voiceは音声認識、音声LLM、音声合成APIなど20以上の言語に対応した最先端の音声ソリューションを提供します。今すぐAPIをお試しください。

事業内容:
Dolphin SOE 英語発音評価サービスの開発&販売
Dolphin Voice 音声対話SaaS Platformの開発&販売

ドルフィンAIは自社開発のAI技術を持つ研究開発型のハイテク企業です。
独自技術の音声対話意図理解モデル(Dolphin Large Language Models)に基づき、音声認識、音声生成、意味理解、テキスト生成、機械翻訳、声紋認識、その他音声対話のフルチェーン技術を開発し、日本語、英語、中国語、韓国語、フランス語、スペイン語、ロシア語、ドイツ語、チベット語、タイ語、ベトナム語など20以上の言語に対応しています。
また、SaaSやオンプレミスのサービス形態を通じて、教育、医療、金融、その他の分野のお客様に基礎となるAI技術と業界ソリューションを提供しています。

アクセス情報:〒170-0013
東京都豊島区東池袋1-18-1 Hareza Tower 20F
JR山手線・埼京線 池袋駅東口(30番出口)より徒歩4分
東京メトロ丸の内線・副都心線・有楽町線 池袋駅東口(30番出口)より徒歩4分
西武池袋線 池袋駅東口(30番出口)より徒歩4分
東武東上線 池袋駅東口(30番出口)より徒歩4分

電話番号:(+81) 03-6775-4523
メールアドレス:contact@dolphin-ai.jp