音声認識

AI 技術動向

機械学習とディープラーニングの違いを簡単に説明

こんにちは、今日は機械学習とディープラーニングの違いについて簡単に説明します。この2つの概念は関連していますが、完全に同じではありません。それぞれの特徴について詳しく見ていきましょう。1. 定義と関係まず、定義からです。機械学習:これは、コ...
AI 技術動向

Megrez-3B-Omni

Megrez-3B-Omniとは?「Megrez-3B-Omni」は、ModelScope.cnから提供されている革新的なAIモデルです。このモデルは、大規模なデータセットを学習し、多様なタスクに適用可能な高度なアルゴリズムを備えています。...
AI 技術動向

emotion2vec+large语音情感识别基座模型large模型

こんにちは、今日は「emotion2vec+large语音情感识别基座模型large模型」についてブログを書いていきます。emotion2vec+largeモデルとは?「emotion2vec+large」は、ModelScope.cnで提...
AI 技術動向

Phonetic関数の使い方詳解:音声認識のデータ処理技術を向上させる

Phonetic関数とは何か?データ処理の現代において、音声認識技術はますます广泛应用されており、phonetic関数はその中でも重要なツールとして位置づけられています。この関数は文字を音素表現に変換し、後の音声処理と分析を容易に行うことが...
AI 技術動向

無監督音声強化技術の進歩、UnSE+が音声存在確率を駆使

音声認識技術の最前線で、杭州电子科技大学と上海交通大学の研究チームが無監督学習を用いた音声強化手法「UnSE+」を発表しました。この技術は、ノイズを含む音声から干渉を抑え、音声信号の感知品質と理解性を高めることを目的としています。UnSE+...
AI 技術動向

NVIDIA、テキストと音声入力から音楽や効果音を生み出すAIモデルFugattoを発表

音声認識技術の最前線で、NVIDIAが革命的な生成式AIモデル「Fugatto(Foundational Generative Audio Transformer Opus 1)」を発表しました。このモデルは、テキストと音声入力から任意の音...
AI 技術動向

Moonshine:リソース制約デバイス向けのオープンソース音声認識モデル

音声認識技術は、AI分野の中でも特に重要な位置を占めており、リアルタイムの音声からテキストへの変換を提供します。最近、リソース制約デバイス向けに最適化されたオープンソース音声認識モデルであるMoonshineが登場し、話題を集めています。こ...
AI 技術動向

音声認識技術:SFから現実へ

SF映画「2001年宇宙を旅する」で、HAL 9000ロボットは自然な会話能力で有名です。この映画は過度に楽観的でしたが、音声認識技術の研究と開発に科学家たちを刺激しました。今日、私たちは音声認識技術が急速に発展し、私たちが機械と対話する方...
AI 技術動向

CosyVoice音声生成大模型:300M-Instructの先進機能を探求する

人工知能分野で、音声生成技術は研究と適用のホットスポットとなってきました。ModelScope.cnは最近、CosyVoice音声生成大模型をリリースしました。これは300Mのパラメーターを持ち、音声合成と理解タスクに特化した高度なモデルで...
AI 技術動向

WeNet-U2pp_Conformer:中国語リアルタイム音声認識の新しいフロンティアを探求する

人工知能技術の急速な発展の中で、リアルタイム音声認識技術は人と機械を結ぶ重要な架け橋となっています。ModelScope.cnがリリースしたWeNet-U2pp_Conformerモデルは、中国語音声認識タスクに特化し、16kHzの音声処理...