Skip to content

火山引擎语音服务

火山引擎实时对话式 AI 提供 RTC 音视频传输、ASR 语音识别、TTS 语音合成等核心能力,开发者通过 CustomLLM 模式对接自有 AI 后端,实现语音驱动的智能交互。

什么是火山引擎语音服务

火山引擎实时对话式 AI 是一套端到端的语音交互解决方案,赋予智能体 “能听、会说、能看、懂思考” 的能力,适用于 AI 智能助手、AI 客服、AI 陪伴、AI 口语教学、智能硬件等场景。

核心组件

RTC(实时音视频)

负责客户端与云端之间的音视频传输。

  • 基于 WebRTC 协议,支持主流浏览器
  • 多端 SDK:Web (@volcengine/rtc)、iOS、Android、Windows、Linux、macOS
  • 内置 AI 降噪(AI-ANS),过滤环境噪音
  • 二进制消息通道,用于传输字幕、状态等结构化数据
  • 抗弱网能力,确保复杂网络环境下的传输可靠性

ASR(语音识别)

将用户语音实时转换为文本。

  • 流式识别,边说边转
  • 支持中、英、日、西等多种语言
  • 支持热词配置,提升专业术语识别准确率
  • 帧级人声检测(VAD),精准判断说话起止

TTS(语音合成)

将 AI 回复文本转换为自然语音。

  • 流式合成,低延迟输出
  • 多种音色可选(男声、女声、不同风格)
  • 支持语速、音调、音量调节
  • 支持情感合成(开心、平静等)

LLM(大语言模型)

处理用户意图理解和回复生成,支持两种接入模式:

火山方舟(ArkV3)

使用火山引擎托管的大语言模型,开箱即用。

  • 支持豆包、Claude、GLM 等多种模型
  • 无需部署额外服务
  • 云端自动扩缩容

CustomLLM(自定义后端)

火山引擎回调开发者的自定义服务获取 LLM 响应。

  • 可对接任意 LLM(OpenAI、Qwen、本地模型等)
  • 完全控制对话逻辑
  • 支持 Agent 和工具调用
  • 可集成私有知识库

EMQX MCP AI 语音助手使用 CustomLLM 模式,以便实现 MCP 工具调用能力。

扩展能力

火山引擎语音服务还提供以下扩展能力:

能力说明
智能打断全双工通信,用户可随时打断 AI 说话,交流更自然
视觉理解支持图片/视频输入,让 AI 能"看见"并理解视觉内容
Function CallingLLM 可识别用户意图并调用外部函数
MCP 协议支持标准化接入外部工具生态
实时字幕实时返回 ASR 识别结果和 LLM 回复文本
上下文管理支持短期记忆和长期记忆(接入向量数据库)

详细功能说明参见 火山引擎实时对话式 AI 文档

计费说明

火山引擎语音服务按使用量计费,各计费项均提供免费试用额度。详见 对话式 AI 实时计费

相关资源