纯语音对话场景

纯语音对话是最基础也是最自然的人机交互方式。用户只需对着设备说话，系统即可实时响应并以语音形式回复，实现流畅的多轮对话体验。

技术实现：设备通过火山引擎 RTC 建立实时音频通道，用户语音经 ASR 识别为文本后发送给 LLM 处理，LLM 生成的回复再通过 TTS 合成为语音播放给用户。整个过程端到端延迟约 1 秒，配合 VAD（语音活动检测）和打断机制，实现接近真人对话的交互体验。

设备要求：仅需麦克风和扬声器，无需屏幕或摄像头，适合各类语音交互设备。

流程图

纯语音对话流程

典型场景

智能音箱 —— 家庭信息中枢

清晨起床：

用户："今天天气怎么样？"
音箱："今天杭州多云转晴，气温 18 到 26 度，空气质量良好，适合户外活动。"
用户："帮我定个下午 3 点的闹钟，提醒我开会。"
音箱："好的，已设置下午 3 点的闹钟，备注是开会提醒。"
用户："今天有什么新闻？"
音箱："今天的热点新闻有：第一条，科技巨头发布新一代 AI 芯片……"

音箱成为家庭的信息入口，用户无需动手就能获取天气、新闻、日程等信息。

车载助手 —— 解放驾驶员双手

高速公路上驾驶中：

用户："导航到最近的服务区。"
车机："好的，前方 15 公里有阳澄湖服务区，预计 10 分钟到达，已为您规划路线。"
用户："给老婆打个电话。"
车机："正在呼叫……"
用户："播放周杰伦的歌。"
车机："为您播放周杰伦的热门歌曲。"

驾驶过程中，语音交互让司机保持专注，提升行车安全。

语言学习 —— AI 口语陪练

练习英语口语：

用户："Can you help me practice English conversation?"
AI："Of course! Let's start with a common scenario. Imagine you're ordering food at a restaurant. I'll be the waiter. Are you ready?"
用户："Yes, I'm ready."
AI："Good evening! Welcome to our restaurant. Here's the menu. What would you like to order tonight?"
用户："I want... a beef steak."
AI："Great choice! By the way, a more natural way to say that would be 'I'd like a beef steak, please.' How would you like it cooked?"

AI 不仅能进行情景对话，还能在交流中纠正语法和用词，提供沉浸式学习体验。

儿童陪伴 —— 益智互动与睡前故事

睡前时间：

孩子："我睡不着，给我讲个故事吧。"
音箱："好呀，今晚想听什么故事？小红帽、三只小猪，还是我给你讲个新故事？"
孩子："讲个新的！"
音箱："好，从前在一片大森林里，住着一只勇敢的小兔子……"
孩子："恐龙为什么会灭绝？"
音箱："这是个好问题！大约 6600 万年前，一颗巨大的小行星撞击了地球……你还想知道更多吗？"
孩子："那个小行星有多大？"
音箱："那颗小行星大约有 10 公里宽，差不多有一座山那么大呢！"

AI 成为孩子的"十万个为什么"百科全书，满足好奇心的同时培养学习兴趣。

技术要点

要点	说明
低延迟	端到端响应约 1 秒，接近真人对话体验
多轮对话	支持上下文记忆，理解指代和省略
打断支持	用户可随时打断 AI 回复，自然交互
个性化	可定制 AI 人设、音色、回复风格

适用设备

智能音箱（天猫精灵、小度、Echo 等形态）
车载中控 / 后视镜
手机 / 平板 App
智能手表
电视 / 机顶盒
儿童早教机
智能台灯等带语音的 IoT 设备

Kubernetes

EMQX Operator

管理 EMQX 集群

API Reference

密码认证

监控

访问控制

集成

管理

集成 Prometheus

集成 OpenTelemetry

端到端追踪

插件目录

JT/T 808 协议网关

GB/T 32960 协议网关

火山引擎 RTC

场景样例

GPT-Realtime

纯语音对话场景 ​

流程图 ​

典型场景 ​

智能音箱 —— 家庭信息中枢 ​

车载助手 —— 解放驾驶员双手 ​

语言学习 —— AI 口语陪练 ​

儿童陪伴 —— 益智互动与睡前故事 ​

技术要点 ​

适用设备 ​