# 火山引擎语音服务

火山引擎实时对话式 AI 提供 RTC 音视频传输、ASR 语音识别、TTS 语音合成等核心能力，开发者通过 CustomLLM 模式对接自有 AI 后端，实现语音驱动的智能交互。

## 什么是火山引擎语音服务

火山引擎实时对话式 AI 是一套端到端的语音交互解决方案，赋予智能体 “能听、会说、能看、懂思考” 的能力，适用于 AI 智能助手、AI 客服、AI 陪伴、AI 口语教学、智能硬件等场景。

### 核心组件

#### RTC（实时音视频）

负责客户端与云端之间的音视频传输。

- 基于 WebRTC 协议，支持主流浏览器
- 多端 SDK：Web (`@volcengine/rtc`)、iOS、Android、Windows、Linux、macOS
- 内置 AI 降噪（AI-ANS），过滤环境噪音
- 二进制消息通道，用于传输字幕、状态等结构化数据
- 抗弱网能力，确保复杂网络环境下的传输可靠性

#### ASR（语音识别）

将用户语音实时转换为文本。

- 流式识别，边说边转
- 支持中、英、日、西等多种语言
- 支持热词配置，提升专业术语识别准确率
- 帧级人声检测（VAD），精准判断说话起止

#### TTS（语音合成）

将 AI 回复文本转换为自然语音。

- 流式合成，低延迟输出
- 多种音色可选（男声、女声、不同风格）
- 支持语速、音调、音量调节
- 支持情感合成（开心、平静等）

#### LLM（大语言模型）

处理用户意图理解和回复生成，支持两种接入模式：

**火山方舟（ArkV3）**

使用火山引擎托管的大语言模型，开箱即用。

- 支持豆包、Claude、GLM 等多种模型
- 无需部署额外服务
- 云端自动扩缩容

**CustomLLM（自定义后端）**

火山引擎回调开发者的自定义服务获取 LLM 响应。

- 可对接任意 LLM（OpenAI、Qwen、本地模型等）
- 完全控制对话逻辑
- 支持 Agent 和工具调用
- 可集成私有知识库

EMQX MCP AI 语音助手使用 CustomLLM 模式，以便实现 MCP 工具调用能力。

## 扩展能力

火山引擎语音服务还提供以下扩展能力：

| 能力 | 说明 |
|------|------|
| **智能打断** | 全双工通信，用户可随时打断 AI 说话，交流更自然 |
| **视觉理解** | 支持图片/视频输入，让 AI 能"看见"并理解视觉内容 |
| **Function Calling** | LLM 可识别用户意图并调用外部函数 |
| **MCP 协议支持** | 标准化接入外部工具生态 |
| **实时字幕** | 实时返回 ASR 识别结果和 LLM 回复文本 |
| **上下文管理** | 支持短期记忆和长期记忆（接入向量数据库） |

详细功能说明参见 [火山引擎实时对话式 AI 文档](https://www.volcengine.com/docs/6348/1310537)。

## 计费说明

火山引擎语音服务按使用量计费，各计费项均提供免费试用额度。详见 [对话式 AI 实时计费](https://www.volcengine.com/docs/6348/1392584)。

## 相关资源

- [火山引擎实时对话式 AI 文档](https://www.volcengine.com/docs/6348/1310537)
