多媒体服务器

EMQX 多媒体服务器是一个基于 WebRTC 技术构建的高性能音视频处理平台。它能够接收来自客户端的 RTP/SRTP 音视频流，并集成了多种 AI 功能，如自动语音识别（ASR）、文本转语音（TTS）以及图像理解等。通过利用大模型能力，EMQX 多媒体服务器支持复杂的语音对话和工具调用，为需要音视频能力的 AI 应用提供了强大的技术支持。

核心功能

实时音视频处理: 支持高质量的音视频流传输，确保低延迟和高可靠性的通信体验。
自动语音识别（ASR）: 提供语音转文本功能，适用于语音助手、智能客服等应用。
文本转语音（TTS）: 支持多种语言和声音风格的文本转语音服务，提升用户交互体验。
图像理解: 集成图像识别和分析技术，支持多种图像处理应用。
大模型支持: 利用大模型能力，实现语音对话和工具调用，满足多样化的业务需求。
高度灵活的架构: 适应不同规模和复杂度的应用场景，支持横向扩展和定制化配置。TTS、ASR、图像理解、LLM 等模型服务商可灵活选择和集成。
高可靠性: 采用分布式架构设计，确保系统的高可用性和稳定性。
低延迟: 优化的网络传输和大模型处理机制，确保实时交互的流畅性。

应用场景

EMQX 多媒体服务器适用于以下场景：

情感陪伴: 通过语音对话和情感识别技术，为用户提供个性化的情感陪伴服务。
智能客服: 利用 ASR 和 TTS 技术，实现高效的语音交互，提升客户服务体验。
设备智能控制: 通过语音指令和图像识别，实现对智能设备的便捷控制。

Kubernetes

EMQX Operator

管理 EMQX 集群

密码认证

监控

访问控制

集成

管理

集成 OpenTelemetry

端到端追踪

插件

JT/T 808 协议网关

与多媒体服务适配的客户端

多媒体服务器 ​

核心功能 ​

应用场景 ​

多媒体服务器

核心功能

应用场景