火山引擎语音服务
火山引擎实时对话式 AI 提供 RTC 音视频传输、ASR 语音识别、TTS 语音合成等核心能力,开发者通过 CustomLLM 模式对接自有 AI 后端,实现语音驱动的智能交互。
什么是火山引擎语音服务
火山引擎实时对话式 AI 是一套端到端的语音交互解决方案,赋予智能体 “能听、会说、能看、懂思考” 的能力,适用于 AI 智能助手、AI 客服、AI 陪伴、AI 口语教学、智能硬件等场景。
核心组件
RTC(实时音视频)
负责客户端与云端之间的音视频传输。
- 基于 WebRTC 协议,支持主流浏览器
- 多端 SDK:Web (
@volcengine/rtc)、iOS、Android、Windows、Linux、macOS - 内置 AI 降噪(AI-ANS),过滤环境噪音
- 二进制消息通道,用于传输字幕、状态等结构化数据
- 抗弱网能力,确保复杂网络环境下的传输可靠性
ASR(语音识别)
将用户语音实时转换为文本。
- 流式识别,边说边转
- 支持中、英、日、西等多种语言
- 支持热词配置,提升专业术语识别准确率
- 帧级人声检测(VAD),精准判断说话起止
TTS(语音合成)
将 AI 回复文本转换为自然语音。
- 流式合成,低延迟输出
- 多种音色可选(男声、女声、不同风格)
- 支持语速、音调、音量调节
- 支持情感合成(开心、平静等)
LLM(大语言模型)
处理用户意图理解和回复生成,支持两种接入模式:
火山方舟(ArkV3)
使用火山引擎托管的大语言模型,开箱即用。
- 支持豆包、Claude、GLM 等多种模型
- 无需部署额外服务
- 云端自动扩缩容
CustomLLM(自定义后端)
火山引擎回调开发者的自定义服务获取 LLM 响应。
- 可对接任意 LLM(OpenAI、Qwen、本地模型等)
- 完全控制对话逻辑
- 支持 Agent 和工具调用
- 可集成私有知识库
EMQX MCP AI 语音助手使用 CustomLLM 模式,以便实现 MCP 工具调用能力。
扩展能力
火山引擎语音服务还提供以下扩展能力:
| 能力 | 说明 |
|---|---|
| 智能打断 | 全双工通信,用户可随时打断 AI 说话,交流更自然 |
| 视觉理解 | 支持图片/视频输入,让 AI 能"看见"并理解视觉内容 |
| Function Calling | LLM 可识别用户意图并调用外部函数 |
| MCP 协议支持 | 标准化接入外部工具生态 |
| 实时字幕 | 实时返回 ASR 识别结果和 LLM 回复文本 |
| 上下文管理 | 支持短期记忆和长期记忆(接入向量数据库) |
详细功能说明参见 火山引擎实时对话式 AI 文档。
计费说明
火山引擎语音服务按使用量计费,各计费项均提供免费试用额度。详见 对话式 AI 实时计费。