Volcano Engine スピーチサービス

Volcano Engine Real-Time Conversational AI は、RTC音声／映像伝送、ASR音声認識、TTS音声合成などのコア機能を提供します。開発者は CustomLLM モードを通じて独自のAIバックエンドを統合し、音声駆動のインテリジェントな対話を構築できます。

Volcano Engine スピーチサービスとは

Volcano Engine Real-Time Conversational AI は、インテリジェントエージェントが「聞く、話す、見る、推論する」ことを可能にするエンドツーエンドの音声対話ソリューションです。AIアシスタント、AIカスタマーサービス、AIコンパニオン、AI音声学習、インテリジェントハードウェアなどのシナリオに適しています。

コアコンポーネント

RTC（リアルタイム音声・映像）

クライアントとクラウド間の音声および映像伝送を担当します。

WebRTCプロトコルに基づき、主要ブラウザをサポート
マルチプラットフォームSDK：Web（@volcengine/rtc）、iOS、Android、Windows、Linux、macOS
AIノイズ抑制（AI-ANS）を内蔵し環境ノイズを除去
字幕やステータスなどの構造化データを送信するバイナリメッセージチャネル
ネットワークが不安定な環境でも強力なレジリエンスを持ち、信頼性の高い伝送を実現

ASR（自動音声認識）

ユーザーの音声をリアルタイムでテキストに変換します。

ストリーミング認識によるリアルタイム文字起こし
中国語、英語、日本語、スペイン語など複数言語に対応
ドメイン固有用語の認識精度向上のためのホットワード設定をサポート
フレーム単位の音声活動検出（VAD）で正確な発話開始・終了検出を実現

TTS（テキスト読み上げ）

AIが生成したテキスト応答を自然な音声に変換します。

低レイテンシのストリーミング合成
複数の音声オプション（男性、女性、さまざまなスタイル）
発話速度、音程、音量の調整をサポート
感情合成（例：喜び、落ち着き）に対応

LLM（大規模言語モデル）

ユーザーの意図理解と応答生成を担当し、2つの統合モードがあります。

Volcano Ark（ArkV3）

Volcano Engineがホストする大規模言語モデルを利用し、すぐに使用可能です。

Doubao、Claude、GLMなど複数モデルをサポート
追加のサービスデプロイ不要
自動クラウドスケーリング対応

CustomLLM（カスタムバックエンド）

開発者のカスタムサービスを呼び出してLLM応答を取得します。

OpenAI、Qwen、ローカルモデルなど任意のLLMと統合可能
会話ロジックを完全に制御可能
エージェントアーキテクチャやツール呼び出しをサポート
プライベートナレッジベースの統合も可能

EMQX MCP AI音声アシスタントは CustomLLM モードを利用し、MCPツール呼び出しを実現しています。

拡張機能

Volcano Engine スピーチサービスは以下の拡張機能も提供します。

機能	説明
インテリジェント割り込み	フルデュプレックス通信で、ユーザーはいつでもAIの発話を割り込み可能。より自然な対話を実現
ビジュアル理解	画像や映像入力をサポートし、AIが視覚コンテンツを「見る」ことを可能にする
ファンクションコール	LLMがユーザーの意図を識別し外部関数を呼び出せる機能
MCPプロトコル対応	外部ツールエコシステムへの標準化されたアクセスを提供
リアルタイム字幕	ASR結果やLLM応答をリアルタイムで返却
コンテキスト管理	ベクターデータベースを用いた短期・長期メモリをサポート

詳細な機能説明は Volcano Engine Real-Time Conversational AI ドキュメントをご覧ください。

料金

Volcano Engine スピーチサービスは利用量に応じて課金されます。各課金項目には無料トライアル枠が含まれています。詳細は Conversational AI Real-Time Pricingをご参照ください。

Kubernetes

EMQX Operator

EMQX クラスター管理

API リファレンス

パスワード認証

監視

アクセスコントロール

統合

管理

Prometheus との統合

OpenTelemetry との統合

エンドツーエンドトレース

プラグインカタログ

JT/T 808 ゲートウェイ

GB/T 32960 ゲートウェイ

Volcengine RTC

シナリオ

GPT-Realtime

Volcano Engine スピーチサービス ​