Skip to content

Volcano Engine Speech Services

Volcano Engine Real-Time Conversational AI は、RTC 音声/映像伝送、ASR 音声認識、TTS 音声合成などのコア機能を提供します。開発者は CustomLLM モードを通じて独自の AI バックエンドを統合し、音声駆動のインテリジェントな対話を構築できます。

Volcano Engine Speech Services とは

Volcano Engine Real-Time Conversational AI は、インテリジェントエージェントが「聞く、話す、見る、推論する」ことを可能にするエンドツーエンドの音声対話ソリューションです。AIアシスタント、AIカスタマーサービス、AIコンパニオン、AI会話学習、インテリジェントハードウェアなどのシナリオに適しています。

コアコンポーネント

RTC(リアルタイム音声・映像)

クライアントとクラウド間の音声および映像伝送を担当します。

  • WebRTC プロトコルに基づき、主要ブラウザをサポート
  • マルチプラットフォーム SDK:Web(@volcengine/rtc)、iOS、Android、Windows、Linux、macOS
  • AI ノイズ抑制(AI-ANS)内蔵で環境ノイズを除去
  • 字幕やステータスなどの構造化データを送信するバイナリメッセージチャネル
  • ネットワークが不安定な環境でも強いレジリエンスを持ち、信頼性の高い伝送を実現

ASR(自動音声認識)

ユーザーの音声をリアルタイムでテキストに変換します。

  • ストリーミング認識によるリアルタイム文字起こし
  • 中国語、英語、日本語、スペイン語など複数言語対応
  • ドメイン固有用語の認識精度向上のためのホットワード設定をサポート
  • フレーム単位のボイスアクティビティ検出(VAD)で正確な発話開始・終了検出

TTS(テキスト読み上げ)

AI が生成したテキスト応答を自然な音声に変換します。

  • 低レイテンシのストリーミング合成
  • 男性、女性、さまざまなスタイルの複数音声オプション
  • 話速、ピッチ、音量の調整をサポート
  • 感情合成(例:喜び、落ち着き)対応

LLM(大規模言語モデル)

ユーザーの意図理解と応答生成を担当し、2つの統合モードがあります。

Volcano Ark(ArkV3)

Volcano Engine がホストする大規模言語モデルを利用し、すぐに使えます。

  • Doubao、Claude、GLM など複数モデルをサポート
  • 追加のサービスデプロイ不要
  • 自動クラウドスケーリング対応

CustomLLM(カスタムバックエンド)

開発者のカスタムサービスを呼び出して LLM 応答を取得します。

  • OpenAI、Qwen、ローカルモデルなど任意の LLM と統合可能
  • 会話ロジックを完全に制御可能
  • エージェントアーキテクチャやツール呼び出しをサポート
  • プライベートナレッジベースの統合が可能

EMQX MCP AI ボイスアシスタントは CustomLLM モードを利用し、MCP ツール呼び出しを実現しています。

拡張機能

Volcano Engine Speech Services は以下の拡張機能も提供します。

機能説明
インテリジェント割り込みフルデュプレックス通信で、ユーザーはいつでも AI を割り込み可能。より自然な対話を実現
ビジュアル理解画像や動画入力をサポートし、AI が視覚コンテンツを「見る」ことを可能にする
関数呼び出しLLM がユーザーの意図を識別し、外部関数を呼び出すことを可能にする
MCP プロトコル対応外部ツールエコシステムへの標準化されたアクセスを提供
リアルタイム字幕ASR 結果と LLM 応答をリアルタイムで返却
コンテキスト管理ベクターデータベースを用いた短期・長期メモリをサポート

詳細な機能説明は Volcano Engine Real-Time Conversational AI ドキュメント をご参照ください。

料金

Volcano Engine Speech Services は利用量に基づいて課金されます。各課金項目には無料トライアル枠が含まれています。詳細は Conversational AI Real-Time Pricing をご覧ください。

関連リソース