# 语音控制硬件场景

在纯语音对话的基础上，进一步实现语音对硬件设备的控制。用户说出指令，AI 不仅能理解并回复，还能实际操作设备完成任务。

**技术实现**：语音传输、ASR、TTS 部分与纯语音对话场景相同。关键差异在于 AI Agent 具备工具调用能力——当识别到用户的控制意图时，Agent 通过 MCP over MQTT 协议向设备发送工具调用请求，设备作为 MCP Server 执行硬件操作（如开关摄像头、调整音量、切换表情、拍照等），并将执行结果返回给 Agent，最终通过语音反馈给用户。

**架构组件**：
- **火山引擎 RTC + ASR + TTS**：实时语音通道和语音识别/合成（标准产品）
- **AI Agent（MCP Client）**：意图理解和工具调用决策（需定制开发）
- **EMQX**：MCP 协议的 MQTT 传输层（标准产品）
- **设备（MCP Server）**：暴露硬件能力为 MCP 工具（需定制开发）

## 流程图

![语音控制硬件流程](./voice-control-hardware.png)

**流程说明**：

1. 语音传输和 ASR/TTS 部分与「纯语音对话场景」类似
2. AI Agent 分析用户意图，决定调用工具
3. 通过 MCP over MQTT 发送工具调用请求
4. 设备（MCP Server）接收请求并执行硬件操作
5. 返回执行结果给 AI Agent
6. Agent 将结果转化为语音反馈给用户

## 典型场景

### 智能家居 —— 全屋语音控制

晚上 10 点，小张准备睡觉：

> **小张**："我要睡觉了。"
>
> **音箱**："好的，晚安模式已开启。"
>
> *（客厅灯光渐暗熄灭，卧室窗帘缓缓关闭，空调自动调至 26 度睡眠模式，电视关闭）*
>
> **小张**："把床头灯调暗一点。"
>
> **音箱**："已将床头灯亮度调至 20%。"
>
> **小张**："明天早上 7 点把窗帘打开。"
>
> **音箱**："好的，已设置明早 7 点自动打开卧室窗帘。"

一句话触发多个设备联动，AI 理解"睡觉"的场景含义，自动执行预设的设备组合操作。

### 车载系统 —— 驾驶中的安全交互

李女士正在城市道路上驾驶：

> **李女士**："有点热，把空调温度降低两度。"
>
> **车机**："好的，空调已从 24 度调至 22 度。"
>
> *（空调温度自动调整）*
>
> **李女士**："打开天窗透透气。"
>
> **车机**："天窗已打开。"
>
> *（天窗缓缓打开）*
>
> **李女士**："后排车窗关一下，风太大了。"
>
> **车机**："后排车窗已关闭。"
>
> **李女士**："座椅按摩打开，腰部按摩。"
>
> **车机**："座椅腰部按摩已开启，祝您驾驶愉快。"

驾驶员全程无需低头或伸手操作，语音控制各种车内设备，保障行车安全。

### 医疗辅助 —— 手术室语音操控

外科医生王主任正在进行手术：

> **王主任**："把无影灯往左移 10 度。"
>
> **系统**："无影灯已调整。"
>
> *（手术灯自动移动）*
>
> **王主任**："亮度再高一点。"
>
> **系统**："亮度已提升至 90%。"
>
> **王主任**："显示患者的 CT 影像，第三层切片。"
>
> **系统**："正在显示 CT 第三层切片。"
>
> *（显示屏切换到指定影像）*
>
> **王主任**："放大右上角区域。"
>
> **系统**："已放大显示。"

在无菌环境下，医生无法触碰非消毒设备，语音控制成为刚需，提升手术效率和安全性。

### 工业生产 —— 解放工人双手

车间工人老张正在操作设备：

> **老张**（双手拿着零件）："启动传送带。"
>
> **系统**："传送带已启动。"
>
> **老张**："速度调到 2 档。"
>
> **系统**："传送带速度已调至 2 档，每分钟 30 件。"
>
> **老张**："打开检测摄像头。"
>
> **系统**："质检摄像头已开启，正在进行实时检测。"
>
> **老张**："记录当前参数。"
>
> **系统**："已记录：温度 180°C，压力 2.5MPa，速度 2 档。"

工人双手忙于操作时，语音成为最自然的控制方式，提高生产效率。

## 核心能力

### MCP 工具调用

设备作为 MCP Server 暴露能力，AI Agent 作为 MCP Client 调用：

```
用户说话 → ASR 识别 → AI Agent 理解意图 → MCP 调用设备工具 → 设备执行 → 语音反馈
```

### 并行处理

语音反馈和设备操作同时进行，用户体验更流畅：

- 用户说"打开摄像头"
- AI 立即开始说"好的，正在打开"
- 同时摄像头已经在启动

而不是等摄像头完全打开后才回复，大幅降低感知延迟。

## 技术要点

| 要点 | 说明 |
|------|------|
| 意图理解 | AI 理解自然语言，映射到具体设备操作 |
| 多设备联动 | 一句话触发多个设备协同动作 |
| 状态反馈 | 执行结果通过语音反馈给用户 |
| 上下文感知 | 理解"再高一点"、"那个灯"等指代表达 |

## 适用设备

- 智能家居网关 / 中控屏
- 服务机器人 / 陪伴机器人
- 车载中控系统
- 医疗手术室设备
- 工业控制终端
- 智能会议室设备