Skip to content

Volcano Engine スピーチサービス

Volcano Engine Real-Time Conversational AI は、RTC音声/映像伝送、ASR音声認識、TTS音声合成などのコア機能を提供します。開発者は CustomLLM モードを通じて独自のAIバックエンドを統合し、音声駆動のインテリジェントな対話を構築できます。

Volcano Engine スピーチサービスとは

Volcano Engine Real-Time Conversational AI は、インテリジェントエージェントが「聞く、話す、見る、推論する」ことを可能にするエンドツーエンドの音声対話ソリューションです。AIアシスタント、AIカスタマーサービス、AIコンパニオン、AI音声学習、インテリジェントハードウェアなどのシナリオに適しています。

コアコンポーネント

RTC(リアルタイム音声・映像)

クライアントとクラウド間の音声および映像伝送を担当します。

  • WebRTCプロトコルに基づき、主要ブラウザをサポート
  • マルチプラットフォームSDK:Web(@volcengine/rtc)、iOS、Android、Windows、Linux、macOS
  • AIノイズ抑制(AI-ANS)を内蔵し環境ノイズを除去
  • 字幕やステータスなどの構造化データを送信するバイナリメッセージチャネル
  • ネットワークが不安定な環境でも強力なレジリエンスを持ち、信頼性の高い伝送を実現

ASR(自動音声認識)

ユーザーの音声をリアルタイムでテキストに変換します。

  • ストリーミング認識によるリアルタイム文字起こし
  • 中国語、英語、日本語、スペイン語など複数言語に対応
  • ドメイン固有用語の認識精度向上のためのホットワード設定をサポート
  • フレーム単位の音声活動検出(VAD)で正確な発話開始・終了検出を実現

TTS(テキスト読み上げ)

AIが生成したテキスト応答を自然な音声に変換します。

  • 低レイテンシのストリーミング合成
  • 複数の音声オプション(男性、女性、さまざまなスタイル)
  • 発話速度、音程、音量の調整をサポート
  • 感情合成(例:喜び、落ち着き)に対応

LLM(大規模言語モデル)

ユーザーの意図理解と応答生成を担当し、2つの統合モードがあります。

Volcano Ark(ArkV3)

Volcano Engineがホストする大規模言語モデルを利用し、すぐに使用可能です。

  • Doubao、Claude、GLMなど複数モデルをサポート
  • 追加のサービスデプロイ不要
  • 自動クラウドスケーリング対応

CustomLLM(カスタムバックエンド)

開発者のカスタムサービスを呼び出してLLM応答を取得します。

  • OpenAI、Qwen、ローカルモデルなど任意のLLMと統合可能
  • 会話ロジックを完全に制御可能
  • エージェントアーキテクチャやツール呼び出しをサポート
  • プライベートナレッジベースの統合も可能

EMQX MCP AI音声アシスタントは CustomLLM モードを利用し、MCPツール呼び出しを実現しています。

拡張機能

Volcano Engine スピーチサービスは以下の拡張機能も提供します。

機能説明
インテリジェント割り込みフルデュプレックス通信で、ユーザーはいつでもAIの発話を割り込み可能。より自然な対話を実現
ビジュアル理解画像や映像入力をサポートし、AIが視覚コンテンツを「見る」ことを可能にする
ファンクションコールLLMがユーザーの意図を識別し外部関数を呼び出せる機能
MCPプロトコル対応外部ツールエコシステムへの標準化されたアクセスを提供
リアルタイム字幕ASR結果やLLM応答をリアルタイムで返却
コンテキスト管理ベクターデータベースを用いた短期・長期メモリをサポート

詳細な機能説明は Volcano Engine Real-Time Conversational AI ドキュメントをご覧ください。

料金

Volcano Engine スピーチサービスは利用量に応じて課金されます。各課金項目には無料トライアル枠が含まれています。詳細は Conversational AI Real-Time Pricingをご参照ください。

関連リソース