Skip to content

ピュアボイス会話シナリオ

ピュアボイス会話は、人間と機械の最も基本的で自然な対話形式です。ユーザーは単にデバイスに話しかけるだけで、システムはリアルタイムで音声による応答を返し、スムーズなマルチターンの会話体験を実現します。

技術的実装:デバイスはVolcano Engine RTCを介してリアルタイムの音声チャネルを確立します。ユーザーの音声はASRによってテキストに変換され、LLMに送られて処理されます。LLMの応答はTTSによって音声合成され、ユーザーに再生されます。エンドツーエンドのレイテンシは約1秒です。VAD(音声活動検出)と割り込み機構と組み合わせることで、人間の自然な会話に近いインタラクション体験を提供します。

デバイス要件:マイクとスピーカーのみが必要で、画面やカメラは不要なため、幅広い音声対応デバイスに適しています。

フローダイアグラム

ピュアボイス会話フロー

典型的なシナリオ

スマートスピーカー — 家庭の情報ハブ

朝の時間帯:

ユーザー:「今日の天気はどう?」 スピーカー:「今日の杭州は曇りのち晴れ、気温は18度から26度です。空気の質も良く、屋外活動に適しています。」

ユーザー:「午後3時に会議のリマインダーでアラームをセットして。」 スピーカー:「わかりました。午後3時のアラームを会議のリマインダー付きでセットしました。」

ユーザー:「今日のニュースは?」 スピーカー:「本日のトップニュースは、まず、ある大手テック企業が新世代のAIチップを発表しました…」

スピーカーは家庭の情報ゲートウェイとなり、天気やニュース、スケジュールなどをハンズフリーで利用できます。

車載アシスタント — ハンズフリー運転

高速道路を走行中:

ユーザー:「一番近いサービスエリアに案内して。」 車載システム:「了解しました。陽澄湖サービスエリアは15キロ先です。到着予想時間は10分です。ルートを設定しました。」

ユーザー:「妻に電話して。」 車載システム:「通話を開始します…」

ユーザー:「周杰倫(ジェイ・チョウ)の曲をかけて。」 車載システム:「人気の周杰倫の曲を再生します。」

音声インタラクションにより、運転者はハンドルから手を離さずに操作でき、安全運転を支援します。

語学学習 — AIとの会話練習

英会話の練習中:

ユーザー:「英会話の練習を手伝ってくれる?」 AI:「もちろんです!よくあるシチュエーションから始めましょう。レストランで注文する場面を想像してください。私はウェイター役をします。準備はいいですか?」

ユーザー:「はい、準備できています。」 AI:「こんばんは!当店へようこそ。メニューはこちらです。今夜は何を注文しますか?」

ユーザー:「ビーフステーキをお願いします。」 AI:「いい選択ですね!ちなみに、より自然な言い方は ‘I’d like a beef steak, please.’ です。焼き加減はいかがなさいますか?」

AIは状況に応じた対話だけでなく、会話中に文法や語彙の訂正も行い、没入感のある学習体験を提供します。

子どものお供 — 教育的な対話とおやすみストーリー

就寝時:

子ども:「眠れないよ。お話を聞かせてくれる?」 スピーカー:「いいですよ!今夜はどんなお話がいいですか?赤ずきんちゃん、三匹の子ぶた、それとも新しいお話?」

子ども:「新しいお話がいい!」 スピーカー:「わかりました。昔々、大きな森に勇敢な小さなウサギが住んでいました…」

子ども:「恐竜はどうして絶滅したの?」 スピーカー:「いい質問ですね!約6600万年前に巨大な小惑星が地球に衝突しました…もっと知りたいですか?」

子ども:「小惑星はどれくらい大きかったの?」 スピーカー:「約10キロメートルの幅で、ほぼ山ほどの大きさでした!」

AIは子どもの「なぜなぜ百科」となり、好奇心を満たしながら学びの楽しさを育みます。

技術的ハイライト

項目説明
低レイテンシ約1秒のエンドツーエンド応答で、人間の会話に近い体験
マルチターン対話コンテキスト記憶と参照、省略理解をサポート
割り込み対応ユーザーはいつでもAIの応答を割り込むことが可能
パーソナライズペルソナ、音声、応答スタイルのカスタマイズが可能

対応デバイス

  • スマートスピーカー(例:天猫精霊、百度小度、Echoなど)
  • 車載ヘッドユニット/バックミラー
  • スマートフォン/タブレットアプリ
  • スマートウォッチ
  • テレビ/セットトップボックス
  • 子ども向け教育デバイス
  • スマートデスクライトなどの音声対応IoTデバイス