AI 技術動向 DeepSeek R1 と V3 の違い DeepSeek R1 と V3 の位置づけとコアな能力DeepSeek V3 は、テキスト、画像、音声、動画など多種多様な形式を処理するマルチモーダルモデルです。自然言語処理の幅広いシナリオに活用可能です。例えば、スマートカスタマーサービ... 2025-05-16 AI 技術動向
ニュース DolphinVoice音声AIサービス -【SOC2 Type1】報告書取得&内部統制評価した国際基準のセキュリティ達成 【株式会社DolphinAI】(本社: 、代表取締役: )はSOC 2 Type1 の報告書を無事に取得したことをお知らせいたします。これは、当社が提供する音声対話AISaaSプラットフォーム「DolphinVoice」において、データセキ... 2025-05-13 ニュース
AI 技術動向 LLaSA-8B:音声生成のパラダイムを再構築し、オープンソースコードが核心技术マトリックスを明らかにする AI技術の急速な発展に伴い、音声生成分野は新たな変革を迎えています。LLaSA-8Bは、強力なオープンソースのテキストから音声(TTS)モデルとして、音声生成のパラダイムを再定義しています。本記事では、LLaSA-8Bの技術的特長、アプリケ... 2025-04-10 AI 技術動向
AI 技術動向 OuteTTS 1.0:強力な音声合成とボイスクローンモデル 音声合成とボイスクローン分野において、OuteTTS 1.0のリリースは技術的な大きな進歩を表しています。このモデルはそのコンパクトな体积にもかかわらず、強力な機能、更高的正確性、およびユーザーに優しいエクスペリエンスを提供しています。本記... 2025-04-10 AI 技術動向
AI 技術動向 アマゾン、OpenAIと谷歌に挑む新たなAI音声モデル「Nova Sonic」を発表 アマゾンは、生成型AI音声モデルの新製品「Nova Sonic」を正式に発表しました。このモデルは音声をネイティブで処理し、自然で流ちょうな音声を生成することができます。Nova Sonicの登場は、アマゾンがAI音声モデル分野で大きな進歩... 2025-04-10 AI 技術動向
AI 技術動向 Step-Audio:音声とテキストの統一理解と生成、マルチモーダル時代の幕開け 2025年、AI音声技術は新たな突破を遂げました。Step-Audioは、音声とテキストの統一理解と生成を実現した世界初のオープンソースの音声フレームワークです。リアルタイム音声アシスタントから複雑なタスクの動的制御まで、Step-Audi... 2025-04-10 AI 技術動向
AI 技術動向 LLaMA-Omni:低遅延・高品質な音声インタラクション、オープンソース化! GPT-4oのリリースに伴い、音声インターフェースのVoice-Chatがますます注目を集め、低遅延・高精度なモデルのspeech-to-speechへのニーズが増加しています。LLaMA-Omniは、このようなニーズを効果的に解決する革新... 2025-04-09 AI 技術動向
AI 技術動向 REINFORCE++:大規模言語モデルのアライメントを簡単かつ効率的に行う方法 大規模言語モデル(LLM)の急速な発展に伴い、これらのモデルの出力を人間の好みと一致させることが重要な課題となっています。人間のフィードバックに基づく強化学習(RLHF)は、この課題を解決するための有力な手法として注目されています。しかし、... 2025-04-09 AI 技術動向
AI 技術動向 書き起こしのコツと効率アップ術:音声から文字へ変換するプロセス こんにちは、皆様!最近、仕事や学習の中で「書き起こし」を頻繁に行うようになりました。インタビューの内容を文字化したり、会議の録音を整理したり、Podcastの内容をテキスト化するなど、書き起こしは意外と役立つスキルです。今日は、私の書き起こ... 2025-04-09 AI 技術動向
AI 技術動向 ERes2Net-large:強力な語種識別モデル、中国語、英語、日本語、韓国語の音声を正確に識別 グローバル化が進む現代社会において、音声認識技術の重要性は日増しに高まっています。リアルタイム翻訳、コンテンツ制作、スマートアシスタントなど、正確な語種識別は効率的なコミュニケーションを実現する鍵です。本記事では、中英広東語日韓の語種識別に... 2025-04-08 AI 技術動向