火山引擎语音服务

火山引擎实时对话式 AI 提供 RTC 音视频传输、ASR 语音识别、TTS 语音合成等核心能力，开发者通过 CustomLLM 模式对接自有 AI 后端，实现语音驱动的智能交互。

什么是火山引擎语音服务

火山引擎实时对话式 AI 是一套端到端的语音交互解决方案，赋予智能体 “能听、会说、能看、懂思考” 的能力，适用于 AI 智能助手、AI 客服、AI 陪伴、AI 口语教学、智能硬件等场景。

核心组件

RTC（实时音视频）

负责客户端与云端之间的音视频传输。

基于 WebRTC 协议，支持主流浏览器
多端 SDK：Web (@volcengine/rtc)、iOS、Android、Windows、Linux、macOS
内置 AI 降噪（AI-ANS），过滤环境噪音
二进制消息通道，用于传输字幕、状态等结构化数据
抗弱网能力，确保复杂网络环境下的传输可靠性

ASR（语音识别）

将用户语音实时转换为文本。

流式识别，边说边转
支持中、英、日、西等多种语言
支持热词配置，提升专业术语识别准确率
帧级人声检测（VAD），精准判断说话起止

TTS（语音合成）

将 AI 回复文本转换为自然语音。

流式合成，低延迟输出
多种音色可选（男声、女声、不同风格）
支持语速、音调、音量调节
支持情感合成（开心、平静等）

LLM（大语言模型）

处理用户意图理解和回复生成，支持两种接入模式：

火山方舟（ArkV3）

使用火山引擎托管的大语言模型，开箱即用。

支持豆包、Claude、GLM 等多种模型
无需部署额外服务
云端自动扩缩容

CustomLLM（自定义后端）

火山引擎回调开发者的自定义服务获取 LLM 响应。

可对接任意 LLM（OpenAI、Qwen、本地模型等）
完全控制对话逻辑
支持 Agent 和工具调用
可集成私有知识库

EMQX MCP AI 语音助手使用 CustomLLM 模式，以便实现 MCP 工具调用能力。

扩展能力

火山引擎语音服务还提供以下扩展能力：

能力	说明
智能打断	全双工通信，用户可随时打断 AI 说话，交流更自然
视觉理解	支持图片/视频输入，让 AI 能"看见"并理解视觉内容
Function Calling	LLM 可识别用户意图并调用外部函数
MCP 协议支持	标准化接入外部工具生态
实时字幕	实时返回 ASR 识别结果和 LLM 回复文本
上下文管理	支持短期记忆和长期记忆（接入向量数据库）

详细功能说明参见火山引擎实时对话式 AI 文档。

计费说明

火山引擎语音服务按使用量计费，各计费项均提供免费试用额度。详见对话式 AI 实时计费。

Kubernetes

EMQX Operator

管理 EMQX 集群

API Reference

密码认证

监控

访问控制

集成

管理

集成 Prometheus

集成 OpenTelemetry

端到端追踪

插件目录

JT/T 808 协议网关

GB/T 32960 协议网关

火山引擎 RTC

场景样例

GPT-Realtime

火山引擎语音服务 ​

什么是火山引擎语音服务 ​

核心组件 ​

RTC（实时音视频） ​

ASR（语音识别） ​

TTS（语音合成） ​

LLM（大语言模型） ​

扩展能力 ​

计费说明 ​

相关资源 ​