语音交互

语音交互把麦克风输入接入当前设备会话，识别文本会按设备规格完成查询或控制；语音通道只处理音频、识别文本和播报，真实设备上线、命令执行和状态上报仍通过 MQTT 或设备 SDK 完成。

使用前准备

启用语音前，需要先完成以下准备：

在配置中启用语音能力，并选择语音服务商。当前支持：

常用配置包括：

远程接入方式见语音配置。

语音服务配置

语音交互有两条使用路径。通常先用控制台验证识别质量和控制链路，再接入 SDK 到真实设备。

路径	适用场景	需要完成
控制台使用	开发调试、演示、验证设备规格是否适合语音控制	启用语音配置，选中设备后用浏览器麦克风发起请求
SDK/设备端接入	设备本身带麦克风、扬声器或系统音频接口	设备端连接 `/ws/voice`，发送音频帧，播放返回的 TTS 音频

控制台使用适合快速确认语音识别、设备上下文和命令调用。SDK/设备端接入负责真实设备的音频采集与播放。两种方式都会进入同一个设备智能体会话，并使用同一份设备规格。

进入设备智能体工作区并选中设备，打开语音入口。后续语音请求都会绑定到这台设备。

控制台使用时可以：

如果同时开启摄像头，语音请求结束时可以携带当前画面。设备智能体会在用户询问可见内容时使用视觉能力，例如识别状态灯、读取屏幕文字或判断画面中的物体。

语音使用入口

生成设备 SDK 后，工程会包含语音连接信息，例如 VOICE_CHAT_HOST；C SDK 还包含可运行的语音聊天示例。设备端接入步骤如下：

不使用生成 SDK 时，可以直接按 WebSocket 协议接入。协议消息、Header 和 hello 示例见 API 参考。

语音请求触发设备控制时，真实设备仍然通过 MQTT 或 SDK 收到命令并返回响应。设备端不需要维护额外的“语音命令”分支，以免和设备规格中的命令定义不一致。

如需生成带麦克风、扬声器或系统音频接口适配逻辑的设备端代码，可以在 SDK 接入中使用智能体适配和增强 SDK。

完成控制台配置或 SDK/设备端接入后，至少验证这些结果：

语音功能需要启用通道、配置 语音连接地址、允许麦克风权限，并配置可用的语音服务商。它更适合手动发起的短语音交互；长报告、复杂表格、代码、唤醒词和持续后台监听场景更适合放在语音流程之外处理。