# 纯语音对话场景

纯语音对话是最基础也是最自然的人机交互方式。用户只需对着设备说话，系统即可实时响应并以语音形式回复，实现流畅的多轮对话体验。

**技术实现**：设备通过火山引擎 RTC 建立实时音频通道，用户语音经 ASR 识别为文本后发送给 LLM 处理，LLM 生成的回复再通过 TTS 合成为语音播放给用户。整个过程端到端延迟约 1 秒，配合 VAD（语音活动检测）和打断机制，实现接近真人对话的交互体验。

**设备要求**：仅需麦克风和扬声器，无需屏幕或摄像头，适合各类语音交互设备。

## 流程图

![纯语音对话流程](./voice-chat.png)

## 典型场景

### 智能音箱 —— 家庭信息中枢

清晨起床：

> **用户**："今天天气怎么样？"
>
> **音箱**："今天杭州多云转晴，气温 18 到 26 度，空气质量良好，适合户外活动。"
>
> **用户**："帮我定个下午 3 点的闹钟，提醒我开会。"
>
> **音箱**："好的，已设置下午 3 点的闹钟，备注是开会提醒。"
>
> **用户**："今天有什么新闻？"
>
> **音箱**："今天的热点新闻有：第一条，科技巨头发布新一代 AI 芯片……"

音箱成为家庭的信息入口，用户无需动手就能获取天气、新闻、日程等信息。

### 车载助手 —— 解放驾驶员双手

高速公路上驾驶中：

> **用户**："导航到最近的服务区。"
>
> **车机**："好的，前方 15 公里有阳澄湖服务区，预计 10 分钟到达，已为您规划路线。"
>
> **用户**："给老婆打个电话。"
>
> **车机**："正在呼叫……"
>
> **用户**："播放周杰伦的歌。"
>
> **车机**："为您播放周杰伦的热门歌曲。"

驾驶过程中，语音交互让司机保持专注，提升行车安全。

### 语言学习 —— AI 口语陪练

练习英语口语：

> **用户**："Can you help me practice English conversation?"
>
> **AI**："Of course! Let's start with a common scenario. Imagine you're ordering food at a restaurant. I'll be the waiter. Are you ready?"
>
> **用户**："Yes, I'm ready."
>
> **AI**："Good evening! Welcome to our restaurant. Here's the menu. What would you like to order tonight?"
>
> **用户**："I want... a beef steak."
>
> **AI**："Great choice! By the way, a more natural way to say that would be 'I'd like a beef steak, please.' How would you like it cooked?"

AI 不仅能进行情景对话，还能在交流中纠正语法和用词，提供沉浸式学习体验。

### 儿童陪伴 —— 益智互动与睡前故事

睡前时间：

> **孩子**："我睡不着，给我讲个故事吧。"
>
> **音箱**："好呀，今晚想听什么故事？小红帽、三只小猪，还是我给你讲个新故事？"
>
> **孩子**："讲个新的！"
>
> **音箱**："好，从前在一片大森林里，住着一只勇敢的小兔子……"
>
> ---
>
> **孩子**："恐龙为什么会灭绝？"
>
> **音箱**："这是个好问题！大约 6600 万年前，一颗巨大的小行星撞击了地球……你还想知道更多吗？"
>
> **孩子**："那个小行星有多大？"
>
> **音箱**："那颗小行星大约有 10 公里宽，差不多有一座山那么大呢！"

AI 成为孩子的"十万个为什么"百科全书，满足好奇心的同时培养学习兴趣。

## 技术要点

| 要点 | 说明 |
|------|------|
| 低延迟 | 端到端响应约 1 秒，接近真人对话体验 |
| 多轮对话 | 支持上下文记忆，理解指代和省略 |
| 打断支持 | 用户可随时打断 AI 回复，自然交互 |
| 个性化 | 可定制 AI 人设、音色、回复风格 |

## 适用设备

- 智能音箱（天猫精灵、小度、Echo 等形态）
- 车载中控 / 后视镜
- 手机 / 平板 App
- 智能手表
- 电视 / 机顶盒
- 儿童早教机
- 智能台灯等带语音的 IoT 设备