Dolphin Voice Blog

三時間で语音認識技術を理解する：技術的な課題と未来の展望

皆さん、こんにちは。今日は、私たちの日常生活に密接にある技術である「语音認識技術」について、簡単に学びましょう。この技術は、私たちが使うデバイスやサービスに、声でコマンドを出す機能を提供していますが、その背後にある技術的な挑戦と未来の展望に...

2024-12-18

AI 技術動向

Megrez-3B-Omniとは？「Megrez-3B-Omni」は、ModelScope.cnから提供されている革新的なAIモデルです。このモデルは、大規模なデータセットを学習し、多様なタスクに適用可能な高度なアルゴリズムを備えています。...

2024-12-17

AI 技術動向

「CosyVoice 2.0-0.5B」は、ModelScope.cnから提供されている最新の音声生成技術です。このモデルは、人工知能を用いて自然で流暢な音声を生成する技術を提供しており、多言語対応で、特に中国語の音声合成において優れた性能...

2024-12-17

AI 技術動向

こんにちは、今日は「emotion2vec+large语音情感识别基座模型large模型」についてブログを書いていきます。emotion2vec+largeモデルとは？「emotion2vec+large」は、ModelScope.cnで提...

2024-12-05

AI 技術動向

こんにちは、今日は「CAM++说话人日志-对话场景角色区分-通用」という話題についてブログを書いていこうと思います。「CAM++说话人日志-对话场景角色区分-通用」は、ModelScope.cnで提供されている技術です。この技術は、音声デー...

2024-12-05

AI 技術動向

INTERSPEECH 2024論文解说 MFSN：音声情感認識における多視点融合検索ネットワークこんにちは、今回はINTERSPEECH 2024で発表された論文「MFSN: Multi-perspective Fusion Search...

2024-12-04

AI 技術動向

こんにちは、今日は北京智谱华章科技有限公司が新たにリリースしたエンドツーエンド音声大モデル、GLM-4-Voiceについて紹介します。この新しいモデルは、人工知能の多模態大模型家族に新たなメンバーを加え、機械と人の間の対話をより自然で流暢な...

2024-12-04

AI 技術動向

こんにちは、今日はオープンソースプロジェクトであるUltravoxについて紹介します。このプロジェクトは、人工知能の領域で注目を集めており、私たちが機械とより自然でスムーズに対話できるようにする非常に興味深いツールです。Ultravoxの誕...

2024-12-04

AI 技術動向

こんにちは、今日はNVIDIAが発表した革新的な生成式AIモデル「Fugatto」について紹介します。このモデルは、言語ヒントに基づいて音楽や音声を生成することができます。Fugattoの特徴Fugattoは、他の音声生成ツールとは異なり、...

2024-12-04

AI 技術動向

Phonetic関数とは何か？データ処理の現代において、音声認識技術はますます广泛应用されており、phonetic関数はその中でも重要なツールとして位置づけられています。この関数は文字を音素表現に変換し、後の音声処理と分析を容易に行うことが...

2024-12-04

AI 技術動向