多媒体服务器架构
多媒体服务器使用 WebRTC 与客户端进行点对点的音视频数据传输,使用 MQTT 协议传输普通消息和 WebRTC 信令消息。用户可以使用 Python 编写 AI 代理程序,通过 STDIO 与多媒体服务器进行通信,以实现更复杂的业务逻辑。
下图展示了使用多媒体服务器的 AI 系统的整体架构:
null
- 设备: 通过 WebRTC 与多媒体服务器进行音视频数据的交互。
- 多媒体服务器: 负责处理来自设备的音视频数据,提供 ASR(自动语音识别)、 TTS(文本转语音)等功能,并与 AI 代理进行通信。
- AI 代理: 通过 STDIO 接受多媒体服务器传递的 ASR 结果,包含了 AI 应用的核心业务逻辑,调用 LLM(大语言模型)处理文本自然语言,并调用多媒体服务提供的 API 发送文字或音频流给设备。
- ASR/TTS: 语音和视觉模型提供商,提供自动语音识别和文本转语音服务。
- LLM:大语言模型,用于自然语言处理与文本生成。
工作流程
下图展示了各组件之间的交互流程:
null