Volcano Engine Speech Services
Volcano Engine Real-Time Conversational AI は、RTC 音声/映像伝送、ASR 音声認識、TTS 音声合成などのコア機能を提供します。開発者は CustomLLM モードを通じて独自の AI バックエンドを統合し、音声駆動のインテリジェントな対話を構築できます。
Volcano Engine Speech Services とは
Volcano Engine Real-Time Conversational AI は、インテリジェントエージェントが「聞く、話す、見る、推論する」ことを可能にするエンドツーエンドの音声対話ソリューションです。AIアシスタント、AIカスタマーサービス、AIコンパニオン、AI会話学習、インテリジェントハードウェアなどのシナリオに適しています。
コアコンポーネント
RTC(リアルタイム音声・映像)
クライアントとクラウド間の音声および映像伝送を担当します。
- WebRTC プロトコルに基づき、主要ブラウザをサポート
- マルチプラットフォーム SDK:Web(
@volcengine/rtc)、iOS、Android、Windows、Linux、macOS - AI ノイズ抑制(AI-ANS)内蔵で環境ノイズを除去
- 字幕やステータスなどの構造化データを送信するバイナリメッセージチャネル
- ネットワークが不安定な環境でも強いレジリエンスを持ち、信頼性の高い伝送を実現
ASR(自動音声認識)
ユーザーの音声をリアルタイムでテキストに変換します。
- ストリーミング認識によるリアルタイム文字起こし
- 中国語、英語、日本語、スペイン語など複数言語対応
- ドメイン固有用語の認識精度向上のためのホットワード設定をサポート
- フレーム単位のボイスアクティビティ検出(VAD)で正確な発話開始・終了検出
TTS(テキスト読み上げ)
AI が生成したテキスト応答を自然な音声に変換します。
- 低レイテンシのストリーミング合成
- 男性、女性、さまざまなスタイルの複数音声オプション
- 話速、ピッチ、音量の調整をサポート
- 感情合成(例:喜び、落ち着き)対応
LLM(大規模言語モデル)
ユーザーの意図理解と応答生成を担当し、2つの統合モードがあります。
Volcano Ark(ArkV3)
Volcano Engine がホストする大規模言語モデルを利用し、すぐに使えます。
- Doubao、Claude、GLM など複数モデルをサポート
- 追加のサービスデプロイ不要
- 自動クラウドスケーリング対応
CustomLLM(カスタムバックエンド)
開発者のカスタムサービスを呼び出して LLM 応答を取得します。
- OpenAI、Qwen、ローカルモデルなど任意の LLM と統合可能
- 会話ロジックを完全に制御可能
- エージェントアーキテクチャやツール呼び出しをサポート
- プライベートナレッジベースの統合が可能
EMQX MCP AI ボイスアシスタントは CustomLLM モードを利用し、MCP ツール呼び出しを実現しています。
拡張機能
Volcano Engine Speech Services は以下の拡張機能も提供します。
| 機能 | 説明 |
|---|---|
| インテリジェント割り込み | フルデュプレックス通信で、ユーザーはいつでも AI を割り込み可能。より自然な対話を実現 |
| ビジュアル理解 | 画像や動画入力をサポートし、AI が視覚コンテンツを「見る」ことを可能にする |
| 関数呼び出し | LLM がユーザーの意図を識別し、外部関数を呼び出すことを可能にする |
| MCP プロトコル対応 | 外部ツールエコシステムへの標準化されたアクセスを提供 |
| リアルタイム字幕 | ASR 結果と LLM 応答をリアルタイムで返却 |
| コンテキスト管理 | ベクターデータベースを用いた短期・長期メモリをサポート |
詳細な機能説明は Volcano Engine Real-Time Conversational AI ドキュメント をご参照ください。
料金
Volcano Engine Speech Services は利用量に基づいて課金されます。各課金項目には無料トライアル枠が含まれています。詳細は Conversational AI Real-Time Pricing をご覧ください。