Volcano Engine スピーチサービス
Volcano Engine Real-Time Conversational AI は、RTC音声/映像伝送、ASR音声認識、TTS音声合成などのコア機能を提供します。開発者は CustomLLM モードを通じて独自のAIバックエンドを統合し、音声駆動のインテリジェントな対話を構築できます。
Volcano Engine スピーチサービスとは
Volcano Engine Real-Time Conversational AI は、インテリジェントエージェントが「聞く、話す、見る、推論する」ことを可能にするエンドツーエンドの音声対話ソリューションです。AIアシスタント、AIカスタマーサービス、AIコンパニオン、AI音声学習、インテリジェントハードウェアなどのシナリオに適しています。
コアコンポーネント
RTC(リアルタイム音声・映像)
クライアントとクラウド間の音声および映像伝送を担当します。
- WebRTCプロトコルに基づき、主要ブラウザをサポート
- マルチプラットフォームSDK:Web(
@volcengine/rtc)、iOS、Android、Windows、Linux、macOS - AIノイズ抑制(AI-ANS)を内蔵し環境ノイズを除去
- 字幕やステータスなどの構造化データを送信するバイナリメッセージチャネル
- ネットワークが不安定な環境でも強力なレジリエンスを持ち、信頼性の高い伝送を実現
ASR(自動音声認識)
ユーザーの音声をリアルタイムでテキストに変換します。
- ストリーミング認識によるリアルタイム文字起こし
- 中国語、英語、日本語、スペイン語など複数言語に対応
- ドメイン固有用語の認識精度向上のためのホットワード設定をサポート
- フレーム単位の音声活動検出(VAD)で正確な発話開始・終了検出を実現
TTS(テキスト読み上げ)
AIが生成したテキスト応答を自然な音声に変換します。
- 低レイテンシのストリーミング合成
- 複数の音声オプション(男性、女性、さまざまなスタイル)
- 発話速度、音程、音量の調整をサポート
- 感情合成(例:喜び、落ち着き)に対応
LLM(大規模言語モデル)
ユーザーの意図理解と応答生成を担当し、2つの統合モードがあります。
Volcano Ark(ArkV3)
Volcano Engineがホストする大規模言語モデルを利用し、すぐに使用可能です。
- Doubao、Claude、GLMなど複数モデルをサポート
- 追加のサービスデプロイ不要
- 自動クラウドスケーリング対応
CustomLLM(カスタムバックエンド)
開発者のカスタムサービスを呼び出してLLM応答を取得します。
- OpenAI、Qwen、ローカルモデルなど任意のLLMと統合可能
- 会話ロジックを完全に制御可能
- エージェントアーキテクチャやツール呼び出しをサポート
- プライベートナレッジベースの統合も可能
EMQX MCP AI音声アシスタントは CustomLLM モードを利用し、MCPツール呼び出しを実現しています。
拡張機能
Volcano Engine スピーチサービスは以下の拡張機能も提供します。
| 機能 | 説明 |
|---|---|
| インテリジェント割り込み | フルデュプレックス通信で、ユーザーはいつでもAIの発話を割り込み可能。より自然な対話を実現 |
| ビジュアル理解 | 画像や映像入力をサポートし、AIが視覚コンテンツを「見る」ことを可能にする |
| ファンクションコール | LLMがユーザーの意図を識別し外部関数を呼び出せる機能 |
| MCPプロトコル対応 | 外部ツールエコシステムへの標準化されたアクセスを提供 |
| リアルタイム字幕 | ASR結果やLLM応答をリアルタイムで返却 |
| コンテキスト管理 | ベクターデータベースを用いた短期・長期メモリをサポート |
詳細な機能説明は Volcano Engine Real-Time Conversational AI ドキュメントをご覧ください。
料金
Volcano Engine スピーチサービスは利用量に応じて課金されます。各課金項目には無料トライアル枠が含まれています。詳細は Conversational AI Real-Time Pricingをご参照ください。