巨大モデルが主流となり、音声理解は GPU と膨大な演算力の独占物語に見えていた。だが、阿里巴巴达摩院が ModelScope に公開したばかりの SenseVoice Small は、わずか 200 MB にも満たない「ポケットサイズ」で多言語音声認識、言語識別、感情認識の三つのタスクをこなし、CPU だけでリアルタイム推論が可能。端末サイドの開発者にも、エンタープライズ級の能力を届ける。
小さなボディ、大きなパワー
SenseVoice Small の「小ささ」は隅々に宿る。ローカルパッケージは 200 MB に届かず、pip 一行でインストール完了。Core i7-12700H ノートでも 1 秒の音声を 0.08 秒で処理し、メモリ占有も 500 MB 前後。Raspberry Pi 4B でも余裕で動く。低レイテンシ、低消費電力、低ハードル——それが最初に感じる印象だ。
推論一回で三つの答え
音声を流し込めば、SenseVoice Small は同時にテキスト、言語、感情を返す。中国語、英語、日本語、韓国語、広東語、呉語、閩南語——主要七言語・方言をカバー。公開中国語テストセットでは文字誤り率 3.4%、言語識別 Top-1 精度 96%、感情五クラス F1 92%。かつて ASR・LID・SER の三連モデルで回していた工程が、たった一つのモデル、たった一度の推論で済む。
三分で動かす、五行以内で実行
ターミナルを開き、依存関係をインストール。
pip install modelscope torch torchaudio
五行のコードを書くだけ。
from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasks
asr = pipeline(
Tasks.auto_speech_recognition,
model='iic/SenseVoiceSmall'
)
print(asr('demo.wav'))
エンターキーを押すと、すぐに結果が飛び出る。
{
"text": "ModelScope 最高だね",
"language": "ja",
"emotion": "happy",
"confidence": 0.97
}
煩雑な設定も GPU の申請も不要。誰でも数分で多言語音声理解をアプリケーションに組み込める。
実戦場面での嬉しさ
オンライン会議にリアルタイム字幕が必要?クライアントに SenseVoice Small を組み込めば、レイテンシ 300 ms 以内、オフラインでも字幕が出し続ける。ショート動画の海外展開で、多言語ユーザーを相手にする?英語・日本語・韓国語・広東語を一本のモデルで捌き、複数 ASR の運用コストを大幅削減。カスタマーサービスの音声検品?録音をまとめて投げれば、テキストと感情タグが一度に返ってくる。パイプラインが短くなり、精度は五ポイント向上した。
限界と未来
もちろん、軽量化にはトレードオフもある。30 秒を超える長音声は事前に VAD でセグメント化する必要がある。音楽や高ノイズ環境では精度が下がる。公式ロードマップによれば、タイ語、ベトナム語、ドイツ語が年内に追加される。フロントエンドのノイズリダクションが実装されれば、利用シーンはさらに広がる。
終わりに
業界が「より大きく」を競うなか、SenseVoice Small は「十分で軽量」を極めた。中小チームや個人開発者にも、エンタープライズ級の多言語音声理解を届ける。GPU も大量データも複雑なデプロイも不要。世界の声を理解し、端末サイドで動かしたいなら、今すぐ ModelScope で SenseVoice Small を試してみてほしい。
会社名:株式会社Dolphin AI
事業内容:
Dolphin SOE 英語発音評価サービスの開発&販売
Dolphin Voice 音声対話SaaS Platformの開発&販売
ドルフィンAIは自社開発のAI技術を持つ研究開発型のハイテク企業です。
独自技術の音声対話意図理解モデル(Dolphin Large Language Models)に基づき、音声認識、音声生成、意味理解、テキスト生成、機械翻訳、声紋認識、その他音声対話のフルチェーン技術を開発し、日本語、英語、中国語、韓国語、フランス語、スペイン語、ロシア語、ドイツ語、チベット語、タイ語、ベトナム語など20以上の言語に対応しています。
また、SaaSやオンプレミスのサービス形態を通じて、教育、医療、金融、その他の分野のお客様に基礎となるAI技術と業界ソリューションを提供しています。
アクセス情報:〒170-0013
東京都豊島区東池袋1-18-1 Hareza Tower 20F
JR山手線・埼京線 池袋駅東口(30番出口)より徒歩4分
東京メトロ丸の内線・副都心線・有楽町線 池袋駅東口(30番出口)より徒歩4分
西武池袋線 池袋駅東口(30番出口)より徒歩4分
東武東上線 池袋駅東口(30番出口)より徒歩4分
電話番号:(+81) 03-6775-4523
メールアドレス:contact@dolphin-ai.jp