简介

硬件 AI 智能体是一个集成了多模态感知和智能交互能力的系统。它通过传感器、麦克风和摄像头等输入设备感知物理世界，能够「听见」用户语音、「看懂」周围环境；同时通过集成 LLM/VLM 模型实现语义理解和上下文记忆，能够「说得出」自然流畅的语音，并通过 MCP 协议控制设备执行相应行动，实现从感知到理解再到行动的完整闭环。

智能体输入

可感知：智能体可以通过各种方式（传感器）来感知这个物理世界：通过温度传感器了解环境温度，使用定位知道自己所处位置，利用重力加速感应知道自己的运行状态等。
听得见：通过麦克风采集环境声音和用户语音，实现噪声抑制、回声消除，然后通过支持多种语言的语音识别技术，让设备能够「听见」用户的自然语言。
看得见：通过摄像头采集视觉信息，实现图像识别、目标检测、人脸识别和手势识别，让设备能够「看懂」周围环境和用户行为。

智能体输出

能理解：通过集成 LLM/VLM 模型，实现语义理解、情感识别和上下文记忆，让设备能够理解用户意图并保持对话连贯性。
说得出：通过扬声器输出高质量语音，支持多音色合成、情感化表达和情境化语调，让设备能够自然流畅地与用户交流。
能行动：通过 MCP 协议控制各种设备功能，实现音量调节、摄像头开启、多设备协调等操作，让设备能够执行用户指令并做出相应行动。

技术架构

功能特性

通过 MQTT 协议实时设备状态感知和交互
- 感知：实时、低时延上报设备数据
- 控制反馈：智能体通过对感知、声音和视觉信息进行处理后，通过 MCP 协议对设备进行控制
设备管理（即将支持）
- 设备分组，批量设备通知等
- 查看设备状态（离线/在线），踢设备下线等操作
- 统计设备使用情况，比如活跃度，使用时长等
多模态交互
- 设备实时语音对话
- 图片、视频等视觉理解 (即将支持)
对话流控制
- 智能打断
记忆与工具
- MCP 协议支持
  - 设备控制 MCP 工具
  - 云端第三方 MCP 工具集成
- 短期记忆
- 长期记忆 (即将支持)
RAG（即将支持）
- 接入知识库、手册和领域知识，提升智能体专业性

方案优势

易与物联网平台集成

基于 MQTT 协议，长连接，低延时，基于 MQTT 协议快速实现设备管理、OTA 等功能：采用轻量级 MQTT 协议建立设备与云端的持久连接，实现毫秒级消息传输，确保智能体指令的实时响应。支持设备状态实时同步、多设备协同控制，以及远程 OTA 固件升级。MQTT 的 QoS 机制保证关键指令的可靠送达，断线自动重连确保服务连续性，为硬件对话智能体提供稳定可靠的通信基础。

设备感知与反馈

根据传感上报数据，智能体给出输出反馈，比如设备控制和语音输出等。

灵活的扩展能力

用户可以动态扩展支持设备(OT)系统和业务系统的集成，比如获取当前用户 ID 下的可用设备 MCP 工具，为设备增加别名，从而提升 LLM 推理准确性和易用性。

交流自然、随时打断

智能打断：支持全双工通信及音频帧级别的人声检测（VAD），随时插话打断，交流更自然。
端上降噪：通过 RTC SDK 实现对复杂环境的音频降噪能力，有效降低背景噪音、背景音乐的干扰，提高用户语音打断的准确性。

实时秒回、通话流畅

超低时延：基于全链路流式处理，RTC+ASR+LLM+TTS 整体链路时延缩短至 1 秒。
抗弱网：通过智能接入、RTC 云端协同优化，在复杂和弱网环境下确保低延时和传输可靠性，避免因丢包引起大模型理解错误。

跨端兼容

多平台支持：支持 iOS、Android、Windows、Linux、macOS、Web、Flutter、Unity、Electron 和微信小程序多端，满足不同场景的应用需求。

多语种互动

多语种支持：支持中、英、日、西等多种语言实时对话。

单体智能体

//介绍 Agent 的功能，特别是 emqx 特色的功能，物联功能：设备感知和设备管理能力

概览

设备感知

通过设备感知，实现设备的控制，或者语音的播放。

设备管理

提供了简单的设备管理能力，用于展示智能硬件设备相关的信息，以及踢设备下线等操作。

客户端 ID
用户名
IP地址:端口
数据上报条数
节点
连接时间
操作

自定义智能体

应用场景

智能家居：用户通过自然语音与智能家居设备交互，如"把客厅温度调到 26 度"、"打开卧室的灯"，智能体能够理解复杂指令并协调多个设备执行。通过多模态感知，智能体还能识别用户手势、检测环境状态，实现更智能的自动化控制。价值在于提升生活便利性，解放双手，让家居设备真正"听懂"用户意图，打造无缝的智能生活体验。
情感陪伴玩具：儿童或老人通过与智能玩具进行自然对话，玩具能够理解情感、记住对话历史，并给予个性化的情感回应。智能体可以讲故事、回答问题、进行教育互动，甚至通过视觉识别用户表情来调整交互方式。价值在于提供持续的情感陪伴，缓解孤独感，特别适合儿童早期教育和老人关怀场景，让科技产品具备温度。
具身智能：服务机器人、工业机器人等具身智能设备通过多模态感知理解环境，接收语音指令并执行物理动作。例如，用户说"帮我拿一下桌上的杯子"，机器人能够识别物体位置、规划路径、执行抓取动作。智能体还能通过视觉理解复杂场景，适应动态环境变化。价值在于实现真正的智能机器人，能够完成复杂任务，广泛应用于服务、制造、医疗等领域，提升工作效率和用户体验。
车机对话机器人：驾驶过程中，用户通过语音与车机系统交互，控制导航、音乐、空调、车窗等功能，无需分心操作屏幕。智能体能够理解自然语言指令，如"导航到最近的加油站"、"播放周杰伦的歌"，并实时响应。通过环境感知，系统还能主动提醒路况、天气等信息。价值在于提升驾驶安全性，减少分心操作，提供更智能、更便捷的驾驶体验，让出行更加安全舒适。

创建专有版部署

扩展认证

扩展授权

单点登录 (SSO)

告警

告警处理指南

CoAP 协议网关

规则

硬件语音

消息协议

基于 LLM 的 MQTT 数据处理

Schema 管理

平台 API

部署 API

Serverless 部署 API

简介

智能体输入

智能体输出

技术架构

功能特性

方案优势

单体智能体

概览

设备感知

设备管理

自定义智能体

应用场景

告警处理指南

Serverless 部署 API

简介 ​

智能体输入 ​

智能体输出 ​

技术架构 ​

功能特性 ​

方案优势 ​

单体智能体 ​

概览 ​

设备感知 ​

设备管理 ​

自定义智能体 ​

应用场景 ​

简介

智能体输入

智能体输出

技术架构

功能特性

方案优势

单体智能体

概览

设备感知

设备管理

自定义智能体

应用场景