ピュアボイス会話シナリオ
ピュアボイス会話は、人間と機械の最も基本的かつ自然な対話形式です。ユーザーは単にデバイスに話しかけるだけで、システムはリアルタイムに音声で応答し、スムーズなマルチターンの会話体験を実現します。
技術的実装:デバイスはVolcano Engine RTCを介してリアルタイムの音声チャネルを確立します。ユーザーの音声はASRによってテキストに変換され、LLMに送られて処理されます。LLMの応答はTTSによって音声合成され、ユーザーに再生されます。エンドツーエンドのレイテンシは約1秒です。VAD(音声活動検出)や割り込み機構と組み合わせることで、人間の自然な会話に近いインタラクション体験を提供します。
デバイス要件:マイクとスピーカーのみが必要で、画面やカメラは不要なため、幅広い音声対応デバイスに適しています。
フローダイアグラム

代表的なシナリオ
スマートスピーカー — 家庭の情報ハブ
朝の時間帯:
ユーザー:「今日の天気はどう?」 スピーカー:「今日の杭州は曇りのち晴れ、気温は18度から26度です。空気の質も良好で、屋外活動に適しています。」
ユーザー:「午後3時に会議のリマインダーでアラームをセットして。」 スピーカー:「了解しました。午後3時のアラームを会議のリマインダー付きで設定しました。」
ユーザー:「今日のニュースは?」 スピーカー:「本日のトップニュースは、まず、ある大手テック企業が新世代のAIチップを発表しました…」
スピーカーは家庭の情報ゲートウェイとなり、天気やニュース、スケジュールなどをハンズフリーで利用できます。
車載アシスタント — ハンズフリー運転
高速道路を走行中:
ユーザー:「最寄りのサービスエリアまで案内して。」 車載システム:「かしこまりました。陽澄湖サービスエリアは15キロ先です。到着予定時刻は10分後です。ルートを設定しました。」
ユーザー:「妻に電話して。」 車載システム:「通話を開始します…」
ユーザー:「周杰倫(ジェイ・チョウ)の曲をかけて。」 車載システム:「周杰倫の人気曲を再生します。」
音声インタラクションにより、ドライバーはハンドルから手を離さずに操作でき、安全運転を支援します。
語学学習 — AI会話練習
英会話の練習中:
ユーザー:「英会話の練習を手伝ってくれる?」 AI:「もちろんです!一般的なシチュエーションから始めましょう。レストランでの注文を想定します。私はウェイター役をします。準備はいいですか?」
ユーザー:「はい、準備できています。」 AI:「こんばんは!当店へようこそ。こちらがメニューです。今夜は何を注文されますか?」
ユーザー:「ビーフステーキを…」 AI:「いい選択ですね!ちなみに、より自然な言い方は ‘I’d like a beef steak, please.’ です。焼き加減はいかがなさいますか?」
AIは状況に応じた対話を行うだけでなく、会話中に文法や語彙の訂正も行い、没入感のある学習体験を提供します。
子どものお供 — 教育的対話とおやすみストーリー
就寝時:
子ども:「眠れないよ。お話を聞かせてくれる?」 スピーカー:「いいですよ!今夜はどんなお話がいいですか?赤ずきんちゃん、三匹の子ぶた、それとも新しいお話?」
子ども:「新しいお話がいい!」 スピーカー:「わかりました。昔々、大きな森に勇敢な小さなウサギが住んでいました…」
—
子ども:「どうして恐竜は絶滅したの?」 スピーカー:「いい質問ですね!約6600万年前に巨大な小惑星が地球に衝突しました…もっと知りたいですか?」
子ども:「小惑星はどのくらい大きかったの?」 スピーカー:「約10キロメートルの幅があり、ほぼ山と同じ大きさでした!」
AIは子どもたちの「なぜなぜ百科」となり、好奇心を満たしながら学びへの興味を育みます。
技術的ハイライト
| 項目 | 説明 |
|---|---|
| 低レイテンシ | 約1秒のエンドツーエンド応答で、人間の会話に近い体験を実現 |
| マルチターン対話 | コンテキストメモリによる参照と省略理解 |
| 割り込み対応 | ユーザーはいつでもAIの応答を割り込むことが可能 |
| パーソナライズ | ペルソナ、声、応答スタイルのカスタマイズが可能 |
対応デバイス例
- スマートスピーカー(例:天猫精霊、百度小度、Echo類似デバイス)
- 車載ヘッドユニット/バックミラー
- スマートフォン/タブレットアプリ
- スマートウォッチ
- テレビ/セットトップボックス
- 子ども向け教育デバイス
- スマートデスクライトなどの音声対応IoTデバイス