Skip to content

GPT-Realtime 概要

GPT-Realtime は、OpenAI が開発したマルチモーダルかつリアルタイム対応のモデルで、ライブ音声入力を受け取りリアルタイムで音声出力を生成できます。大規模な音声データセットで学習されており、人間の自然な会話パターンに密接に沿うよう設計されています。

主な特徴は以下の通りです:

  • プロトコル:WebRTC、WebSocket、SIP に対応。テキストおよび音声入力をリアルタイムで処理し、レスポンスを継続的にストリーミングできます。
  • 会話体験:低レイテンシ、自然で流暢な音声合成、会話中の複数の割り込みに対する堅牢な対応で、人間の対話に近い体験を実現します。
  • 関数呼び出しとツール:関数呼び出しおよび MCP ツールに対応しています。
  • 開発者体験:WebRTC 統合においては、2つのレベルの統合方法を提供しています:
    • Voice Agents SDK:すぐに使える高レベルの抽象化を備えています。
    • WebRTC SDK:より柔軟でカスタマイズ可能な低レベルの音声/映像トランスポートを提供します。

従来の RTC リアルタイム音声パイプライン(複数モデルの連結)

従来の RTC リアルタイム音声ソリューションでは、音声インタラクションを実現するために複数のモデルが連結されることが一般的です。音声はまずテキストに書き起こされ、その後大規模言語モデルで処理され、最後に音声合成されてユーザーにストリーミングされます。

traditional models pipeline

GPT-Realtime:単一モデルで統合された機能

GPT-Realtime は複数モデルの連結を不要にします。音声から音声への全プロセスを単一モデルで処理するため、エンドツーエンドのレイテンシが大幅に低減されます。

GPT-Realtime