GPT-Realtime 概述

GPT-Realtime 是 OpenAI 开发的能够实时接收语音输入并生成语音输出的多模态实时模型。该模型使用语音数据集进行训练，使用上更加贴近人类的语音交流习惯。

该模型具有以下特点：

协议上： 支持 WebRTC, WebSocket 和 SIP 协议，实时处理文字和语音输入并流式给出回答。
对话体验上： 延迟低、语音合成自然流畅、对话中可以处理多次被打断的情况，更加贴近人类对话体验。
函数调用和工具能力： 支持工具调用和 MCP 工具。
开发体验上： 在 WebRTC 协议方面，支持两种级别的集成方式：Voice Agents SDK（封装更高层次的能力，开箱即用）和 WebRTC SDK（更底层的音视频传输能力，可自定义程度高）。

其他串联多种类型模型的 RTC 实时语音方案

在传统的 RTC 实时语音方案中，通常需要将多种类型的模型串联起来完成语音交互功能：首先将语音转录为文字，再输入给大模型处理，最后将大模型的输出合成为语音推送给用户。

传统 RTC 实时语音方案

GPT-Realtime 模型不再需要串联多种类型的模型，而是将整个过程都在单个模型内部完成，因此它的端到端延迟非常低。

GPT-Realtime 方案