Skip to content

ピュアボイス会話シナリオ

ピュアボイス会話は、人間と機械の最も基本的かつ自然な対話形式です。ユーザーは単にデバイスに話しかけるだけで、システムはリアルタイムに音声で応答し、スムーズなマルチターンの会話体験を実現します。

技術的実装:デバイスはVolcano Engine RTCを介してリアルタイムの音声チャネルを確立します。ユーザーの音声はASRによってテキストに変換され、LLMに送られて処理されます。LLMの応答はTTSによって音声合成され、ユーザーに再生されます。エンドツーエンドのレイテンシは約1秒です。VAD(音声活動検出)や割り込み機構と組み合わせることで、人間の自然な会話に近いインタラクション体験を提供します。

デバイス要件:マイクとスピーカーのみが必要で、画面やカメラは不要なため、幅広い音声対応デバイスに適しています。

フローダイアグラム

ピュアボイス会話のフロー

代表的なシナリオ

スマートスピーカー — 家庭の情報ハブ

朝の時間帯:

ユーザー:「今日の天気はどう?」 スピーカー:「今日の杭州は曇りのち晴れ、気温は18度から26度です。空気の質も良好で、屋外活動に適しています。」

ユーザー:「午後3時に会議のリマインダーでアラームをセットして。」 スピーカー:「了解しました。午後3時のアラームを会議のリマインダー付きで設定しました。」

ユーザー:「今日のニュースは?」 スピーカー:「本日のトップニュースは、まず、ある大手テック企業が新世代のAIチップを発表しました…」

スピーカーは家庭の情報ゲートウェイとなり、天気やニュース、スケジュールなどをハンズフリーで利用できます。

車載アシスタント — ハンズフリー運転

高速道路を走行中:

ユーザー:「最寄りのサービスエリアまで案内して。」 車載システム:「かしこまりました。陽澄湖サービスエリアは15キロ先です。到着予定時刻は10分後です。ルートを設定しました。」

ユーザー:「妻に電話して。」 車載システム:「通話を開始します…」

ユーザー:「周杰倫(ジェイ・チョウ)の曲をかけて。」 車載システム:「周杰倫の人気曲を再生します。」

音声インタラクションにより、ドライバーはハンドルから手を離さずに操作でき、安全運転を支援します。

語学学習 — AI会話練習

英会話の練習中:

ユーザー:「英会話の練習を手伝ってくれる?」 AI:「もちろんです!一般的なシチュエーションから始めましょう。レストランでの注文を想定します。私はウェイター役をします。準備はいいですか?」

ユーザー:「はい、準備できています。」 AI:「こんばんは!当店へようこそ。こちらがメニューです。今夜は何を注文されますか?」

ユーザー:「ビーフステーキを…」 AI:「いい選択ですね!ちなみに、より自然な言い方は ‘I’d like a beef steak, please.’ です。焼き加減はいかがなさいますか?」

AIは状況に応じた対話を行うだけでなく、会話中に文法や語彙の訂正も行い、没入感のある学習体験を提供します。

子どものお供 — 教育的対話とおやすみストーリー

就寝時:

子ども:「眠れないよ。お話を聞かせてくれる?」 スピーカー:「いいですよ!今夜はどんなお話がいいですか?赤ずきんちゃん、三匹の子ぶた、それとも新しいお話?」

子ども:「新しいお話がいい!」 スピーカー:「わかりました。昔々、大きな森に勇敢な小さなウサギが住んでいました…」

子ども:「どうして恐竜は絶滅したの?」 スピーカー:「いい質問ですね!約6600万年前に巨大な小惑星が地球に衝突しました…もっと知りたいですか?」

子ども:「小惑星はどのくらい大きかったの?」 スピーカー:「約10キロメートルの幅があり、ほぼ山と同じ大きさでした!」

AIは子どもたちの「なぜなぜ百科」となり、好奇心を満たしながら学びへの興味を育みます。

技術的ハイライト

項目説明
低レイテンシ約1秒のエンドツーエンド応答で、人間の会話に近い体験を実現
マルチターン対話コンテキストメモリによる参照と省略理解
割り込み対応ユーザーはいつでもAIの応答を割り込むことが可能
パーソナライズペルソナ、声、応答スタイルのカスタマイズが可能

対応デバイス例

  • スマートスピーカー(例:天猫精霊、百度小度、Echo類似デバイス)
  • 車載ヘッドユニット/バックミラー
  • スマートフォン/タブレットアプリ
  • スマートウォッチ
  • テレビ/セットトップボックス
  • 子ども向け教育デバイス
  • スマートデスクライトなどの音声対応IoTデバイス