Skip to content

简介

硬件 AI 智能体是一个集成了多模态感知和智能交互能力的系统。它通过传感器、麦克风和摄像头等输入设备感知物理世界,能够「听见」用户语音、「看懂」周围环境;同时通过集成 LLM/VLM 模型实现语义理解和上下文记忆,能够「说得出」自然流畅的语音,并通过 MCP 协议控制设备执行相应行动,实现从感知到理解再到行动的完整闭环。

智能体输入

  • 可感知:智能体可以通过各种方式(传感器)来感知这个物理世界:通过温度传感器了解环境温度,使用定位知道自己所处位置,利用重力加速感应知道自己的运行状态等。
  • 听得见:通过麦克风采集环境声音和用户语音,实现噪声抑制、回声消除,然后通过支持多种语言的语音识别技术,让设备能够「听见」用户的自然语言。
  • 看得见:通过摄像头采集视觉信息,实现图像识别、目标检测、人脸识别和手势识别,让设备能够「看懂」周围环境和用户行为。

智能体输出

  • 能理解:通过集成 LLM/VLM 模型,实现语义理解、情感识别和上下文记忆,让设备能够理解用户意图并保持对话连贯性。
  • 说得出:通过扬声器输出高质量语音,支持多音色合成、情感化表达和情境化语调,让设备能够自然流畅地与用户交流。
  • 能行动:通过 MCP 协议控制各种设备功能,实现音量调节、摄像头开启、多设备协调等操作,让设备能够执行用户指令并做出相应行动。

技术架构

功能特性

  • 通过 MQTT 协议实时设备状态感知和交互
    • 感知:实时、低时延上报设备数据
    • 控制反馈:智能体通过对感知、声音和视觉信息进行处理后,通过 MCP 协议对设备进行控制
  • 设备管理(即将支持)
    • 设备分组,批量设备通知等
    • 查看设备状态(离线/在线),踢设备下线等操作
    • 统计设备使用情况,比如活跃度,使用时长等
  • 多模态交互
    • 设备实时语音对话
    • 图片、视频等视觉理解 (即将支持)
  • 对话流控制
    • 智能打断
  • 记忆与工具
    • MCP 协议支持
      • 设备控制 MCP 工具
      • 云端第三方 MCP 工具集成
    • 短期记忆
    • 长期记忆 (即将支持)
  • RAG(即将支持)
    • 接入知识库、手册和领域知识,提升智能体专业性

方案优势

易与物联网平台集成

  • 基于 MQTT 协议,长连接,低延时,基于 MQTT 协议快速实现设备管理、OTA 等功能:采用轻量级 MQTT 协议建立设备与云端的持久连接,实现毫秒级消息传输,确保智能体指令的实时响应。支持设备状态实时同步、多设备协同控制,以及远程 OTA 固件升级。MQTT 的 QoS 机制保证关键指令的可靠送达,断线自动重连确保服务连续性,为硬件对话智能体提供稳定可靠的通信基础。

设备感知与反馈

  • 根据传感上报数据,智能体给出输出反馈,比如设备控制和语音输出等。

灵活的扩展能力

  • 用户可以动态扩展支持设备(OT)系统和业务系统的集成,比如获取当前用户 ID 下的可用设备 MCP 工具,为设备增加别名,从而提升 LLM 推理准确性和易用性。

交流自然、随时打断

  • 智能打断:支持全双工通信及音频帧级别的人声检测(VAD),随时插话打断,交流更自然。
  • 端上降噪:通过 RTC SDK 实现对复杂环境的音频降噪能力,有效降低背景噪音、背景音乐的干扰,提高用户语音打断的准确性。

实时秒回、通话流畅

  • 超低时延:基于全链路流式处理,RTC+ASR+LLM+TTS 整体链路时延缩短至 1 秒。
  • 抗弱网:通过智能接入、RTC 云端协同优化,在复杂和弱网环境下确保低延时和传输可靠性,避免因丢包引起大模型理解错误。

跨端兼容

  • 多平台支持:支持 iOS、Android、Windows、Linux、macOS、Web、Flutter、Unity、Electron 和微信小程序多端,满足不同场景的应用需求。

多语种互动

  • 多语种支持:支持中、英、日、西等多种语言实时对话。

单体智能体

//介绍 Agent 的功能,特别是 emqx 特色的功能,物联功能:设备感知和设备管理能力

概览

设备感知

通过设备感知,实现设备的控制,或者语音的播放。

设备管理

提供了简单的设备管理能力,用于展示智能硬件设备相关的信息,以及踢设备下线等操作。

  • 客户端 ID
  • 用户名
  • IP地址:端口
  • 数据上报条数
  • 节点
  • 连接时间
  • 操作

自定义智能体

应用场景

  • 智能家居:用户通过自然语音与智能家居设备交互,如"把客厅温度调到 26 度"、"打开卧室的灯",智能体能够理解复杂指令并协调多个设备执行。通过多模态感知,智能体还能识别用户手势、检测环境状态,实现更智能的自动化控制。价值在于提升生活便利性,解放双手,让家居设备真正"听懂"用户意图,打造无缝的智能生活体验。

  • 情感陪伴玩具:儿童或老人通过与智能玩具进行自然对话,玩具能够理解情感、记住对话历史,并给予个性化的情感回应。智能体可以讲故事、回答问题、进行教育互动,甚至通过视觉识别用户表情来调整交互方式。价值在于提供持续的情感陪伴,缓解孤独感,特别适合儿童早期教育和老人关怀场景,让科技产品具备温度。

  • 具身智能:服务机器人、工业机器人等具身智能设备通过多模态感知理解环境,接收语音指令并执行物理动作。例如,用户说"帮我拿一下桌上的杯子",机器人能够识别物体位置、规划路径、执行抓取动作。智能体还能通过视觉理解复杂场景,适应动态环境变化。价值在于实现真正的智能机器人,能够完成复杂任务,广泛应用于服务、制造、医疗等领域,提升工作效率和用户体验。

  • 车机对话机器人:驾驶过程中,用户通过语音与车机系统交互,控制导航、音乐、空调、车窗等功能,无需分心操作屏幕。智能体能够理解自然语言指令,如"导航到最近的加油站"、"播放周杰伦的歌",并实时响应。通过环境感知,系统还能主动提醒路况、天气等信息。价值在于提升驾驶安全性,减少分心操作,提供更智能、更便捷的驾驶体验,让出行更加安全舒适。