パラフォーマーを基にした中国語の音声認識

Speech to Text - DolphinVoiceの音声認識API・SDK

Dolphin Voiceは音声認識、音声LLM、音声合成APIなど20以上の言語に対応した最先端の音声ソリューションを提供します。今すぐAPIをお試しください。

この記事では、ダモアilionの音声チームが開発した Paraformer という効率的な中国語の音声認識モデルを紹介します。これは高い精度と計算効率を備えており、多种の音声認識シーンに适用できます。以下にこのモデルの詳細な紹介を示します。

一、モデルの概要
二、モデルの特徴
三、推理方法
四、モデルの性能
五、使用方法と适用範囲
六、モデルの制限

一、モデルの概要

Paraformer は非自回帰型のエンドツーエンドの音声認識フレームワークであり、工业级の数万時間のラベル付きオーディオで训练されています。これにより、一般的な認識効果が保証されます。音声入力メソッド、音声ナビゲーション、智能会議メモなどに适用できます。

二、モデルの特徴

ホットワードのカスタマイズ機能 ：Paraformer-large ホットワード版モデルは、ホットワードのカスタマイズをサポートしています。指定されたホットワードリストに基づいてインセンティブを強化することで、ホットワードのリコール率と精度を向上させることができます。
長オーディオの処理能力 ：Paraformer-large 長オーディオモデルは、音声活動検出（VAD）、自動音声認識（ASR）、ピリオド回復、タイムスタンプ機能を集成しています。これにより、数時間のオーディオを直接認識し、ピリオド付きの文字とタイムスタンプを含む結果を出力できます。
効率的なモデル構造 ：Paraformer のモデル構造は、Encoder、Predictor、Sampler、Decoder、および Loss function の 5 つの部分で構成されています。その核心となる点は、Predictor モジュールが Continuous integrate-and-fire（CIF）ベースの予測器を使用して、目标文字に対応する音声特徴ベクトルを抽出すること、Sampler モジュールがサンプリングを通じて音声特徴ベクトルと目标文字ベクトルを意味のある特徴ベクトルに変換すること、そして负のサンプルに基づく MWER トレーニング基準です。

三、推理方法

ModelScope を基にした推理 ：
- wav ファイルパス、pcm ファイルパス、wav ファイル url、wav バイナリーデータ、解析済みの audio オーディオ、wav.scp ファイルなど、多种のオーディオ形式の入力をサポートしています。
- 以下のコードを例として、Python コードで対応する API を呼び出して推理を行うことができます。
  from modelscope.pipelines import pipeline
  from modelscope.utils.constant import Tasks

inference_pipeline = pipeline(
task=Tasks.auto_speech_recognition,
model='iic/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch', model_revision="v2.0.4")

rec_result = inference_pipeline(input='https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/asr_example_zh.wav')
print(rec_result)

VAD と PUNC ピリオドモデルを自由に組み合わせることもできます。
1. FunASR を基にした推理 ：
コマンドラインを実行可能にし、たとえば以下の通りです。
funasr ++model=paraformer-zh ++vad_model="fsmn-vad" ++punc_model="ct-punc" ++input=vad_example.wav
Python では、非リアルタイムの音声認識、リアルタイムの音声認識、音声エンドポイント検出（非リアルタイムとリアルタイム）、ピリオド回復など、異なるシーンの実装方法のサンプルコードが用意されています。

四、モデルの性能

Paraformer は、多个の音声認識 benchmark で現在の最先端の結果を得ています。たとえば、AISHELL-1 データセットでは、言語モデル（LM）なしの误り率（WER）が 1.95％、LM ありの WER が 1.68％です。AISHELL-2 データセットでは、異なるテストセットでのパフォーマンスも他のモデルを上回ります。WenetSpeech データセットでも、低い WER を示しています。さらに、SpeechIO TIOBE の白箱テストシーンでは、Transformer-LM モデルと組み合わせた shallow fusion を行い、多个のテストセットで優れた結果を得ています。

五、使用方法と适用範囲

実行環境 ：Linux-x86_64、Mac、および Windows 系统での実行をサポートしています。
使用方法 ：入力オーディオを直接デコードして目标の文字を出力することも、プライベートデータやオープンソースデータを用いて训练済みのモデルを微調整することもできます。
适用範囲と目标シーン ：オフラインの音声認識シーン、例えば録音ファイルの変換に适用されます。推荐される音声の长さは 20 秒未満です。长オーディオをデコードする必要がある场合には、Paraformer-large 長オーディオモデルの使用をお勧めします。