音声ゲートウェイのパラメータの詳細

Cognigy Voice Gatewayには、Flow内から直接制御できる設定項目があります。これらの設定は、スコープに対して個別に適用できます:

  • セッションパラメーターの設定セッションパラメータは、Set Session Config Nodeで設定できます。実行すると、そのセッションの間、設定が適用されます。
  • アクティビティパラメータの設定。アクティビティパラメータはアクティビティ/ノードごとに設定できます。例えば、プレイノードでバージインを設定すると、このノードの実行中にのみバ ージインが有効になります。したがって、ユーザはこの出力中にバーチャルエージェントに割り込むことはできますが、その後に割り込むことはできません。これらの設定は、Sayノード、Questionノード、Optional Questionノードでも利用できます。

設定

シンセサイザー – 音声合成

v4.62でアップデート

TTS設定は、Microsoft Azure、AWS、Google、Nuance、またはカスタムベンダーのドロップダウンメニューから選択できます。

パラメータタイプ説明
TTS Vendorドロップダウン希望するTTSベンダーを定義します。カスタムベンダーを選択できます。
カスタム(ベンダー)CognigyScriptドロップダウンリストにないTTSベンダーを指定できるようにします。このオプションはVoice Gatewayでのみ使用できます。プリインストールプロバイダの場合は、microsoft、google、awsのようにすべて小文字を使用します。カスタムプロバイダの場合は、Voice GatewayのSpeech Serviceページで指定した名前を使用します。

カスタムフィールドは、TTSベンダーリストからカスタムを選択した場合に表示されます。
TTS言語ドロップダウン音声バーチャルエージェントの出力言語を定義します。
カスタム(言語)CognigyScriptドロップダウンリストにないTTS言語を選択できるようにします。バーチャルエージェント出力の言語を定義します。使用するフォーマットは、TTSベンダーによって異なります(例:de-DE、fr-FR、en-US)。

TTS言語リストからカスタムを選択した場合、カスタムフィールドが表示されます。
TTS音声ドロップダウンVoice バーチャルエージェントの出力に使用する音声を定義します。
カスタム (音声)CognigyScriptドロップダウンリストにないTTS音声を選択できるようにします。この設定は、地域固有の音声の場合に使用できます。使用するフォーマットはTTSベンダーによって異なります。
TTSラベルCognigyScriptベンダーの代替名は、Voice Gateway Self-Service Portalで指定したものです。同じベンダーから複数の音声サービスを作成した場合は、ラベルを使用して使用するサービスを指定します。
高度なTTS設定を有効にするトグルAzure Custom Voice EndpointのURLを追加できるようになります。
TTS音声キャッシュを無効にするトグルTTSオーディオキャッシングを無効にします。

デフォルトでは、この設定は無効になっています。この場合、以前にリクエストされた TTS 音声の結果は、バーチャルエージェントのキャッシュに保存されます。新しい TTS リクエストが作成され、オーディオテキストが以前にリクエストされた場合、バーチャルエージェントは TTS プロバイダに再度リクエストを送信する代わりに、キャッシュされた結果を取得します。

この設定を有効にすると、バーチャルエージェントはTTS結果をキャッシュしなくなります。この場合、各リクエストは直接音声プロバイダに送信されます。

キャッシュを無効にすると、TTSのコストが増加する可能性があることに注意してください。詳細については、音声プロバイダにお問い合わせください。

レコグナイザー – 音声からテキスト

v4.65でアップデート

STT設定は、Microsoft Azure、AWS、Google、Nuance、Soniox、またはカスタムベンダーのドロップダウンから選択できます。

パラメータタイプ説明
STTベンダードロップダウン希望する STT ベンダーを定義します。カスタムベンダーを選択できます。
カスタム(ベンダー)CognigyScriptドロップダウンリストにないSTTベンダーを指定できます。希望の STT ベンダーを選択します。このオプションはVoice Gatewayでのみ使用できます。プリインストールプロバイダの場合は、microsoft、google、awsのようにすべて小文字を使用します。カスタムプロバイダーの場合は、Voice GatewayのSpeech Serviceページで指定した名前を使用します。

カスタムフィールドは、STTベンダーリストからカスタムを選択した場合に表示されます。
STT言語ドロップダウン認識されるべき言語を定義する。
カスタム (言語)CognigyScriptドロップダウンリストにないSTT言語を選択できるようにします。この設定は、地域固有の音声の場合に使用できます。使用するフォーマットは、STTベンダーによって異なります(例:de-DE、fr-FR、en-US)。

Custom フィールドは、STT Language リストで Custom を選択した場合に表示されます。
Deepgram 階層ドロップダウンこのパラメータは、STT ベンダー設定で Deepgram が選択されている場合にのみ有効です。

API 要求の階層を選択し、選択した STT 言語でそのモデルが使用可能であることを確認します。Deepgram 階層の詳細は、“Deepgram のドキュメント” を参照してください。
Deepgram モデルドロップダウンSTTベンダー “設定で “Deepgram “が選択されている場合のみ有効です。

送信された音声を処理するモデルを選択します。各モデルは階層に関連付けられています。選択した階層が、選択した STT 言語で使用可能であることを確認してください。Deepgram モデルの詳細については、Deepgram のドキュメントを参照してください。
Endpointトグルこのパラメータは、STTベンダー設定でDeepgramが選択されている場合にのみ有効です。

Deepgramのエンドポイント機能は、ストリーミングオーディオを監視して、スピーチの終わりを示す長いポーズを探します。エンドポイントを検出すると、予測を確定してトランスクリプトを返し、speech_final パラメータを true に設定して完了としてマークします。Deepgram Endpointing の詳細については、Deepgram のドキュメントを参照してください。

発話終了を検出する時間は、デフォルト値 (10 ミリ秒) で事前に設定されています。この値を変更する場合は、[終点検出時間] 設定を使用します。
エンドポイント時間数値このパラメータは、STT ベンダー設定で Deepgram が選択され、Endpointing トグルが有効になっている場合にのみ有効です。

発話終了を検出する時間(ミリ秒)をカスタマイズします。デフォルトは 10 ミリ秒の無音です。トランスクリプトは無音を検出した後に送信され、システムは話し手が再開するか、必要な無音時間に達するまで待ちます。いずれかの条件が満たされると、トランスクリプトは speech_final を true に設定して返送されます。
スマートフォーマットトグルこのパラメータは、STT ベンダー設定で Deepgram が選択されている場合にのみ有効です。

Deepgramのスマートフォーマット機能は、トランスクリプトに追加のフォーマットを適用して、人間の読みやすさに最適化します。スマートフォーマットの機能は、モデルによって異なります。スマートフォーマットがオンになっている場合、Deepgramは、選択したモデル、階層、および言語の組み合わせに対して、常に最適なフォーマットを適用します。詳細な例については、Deepgram のドキュメントを参照してください。

スマート・フォーマットをオンにすると、[STT句読点を無効にする] 設定が有効になっていても、句読点が有効になることに注意してください。
STT ヒントText音声検出を補助するための単語やフレーズの配列。
注:これは STT エンジンのサポートが必要です。このフィールドは Nuance speech vendor では使用できません。
ダイナミックヒントCognigyScript配列のヒントを追加するためにコンテキストまたは入力を使用します。例えば、{{context.hints}}や{{input.hints}}などです。これらの設定は、Advanced パラメータを使って上書きすることができます。
STTラベルCognigyScriptベンダーの代替名は、Voice Gateway Self-Service Portal で指定したものです。同じベンダーから複数の音声サービスを作成した場合は、ラベルを使用して使用するサービスを指定します。
Googleモデルドロップダウンこのパラメータは、STT ベンダー設定で Google が選択されている場合にのみ有効です。

Google Cloud Speech-to-Text のいずれかのテープ起こしモデルを使用します。Googleモデルの詳細なリストについては、Googleドキュメントのテープ起こしモデルセクションを参照してください。デフォルト値は、他のモデルが特定のシナリオに合わない場合に使用できるGoogleモデルタイプであることに留意してください。
音声アクティビティ検出の有効化トグル音声が検出されるまで、クラウド認識への接続を遅らせる。
VAD感度Slider検出感度は、値が小さいほど感度が高い。
最小音声継続時間Sliderクラウドレコグナイザーに接続する前に必要な音声活動ミリ秒。
STT句読点を無効にするトグルこのパラメータは、STT ベンダー設定で Google または Deepgram が選択されている場合にのみ有効です。

バーチャルエージェントからのSTT応答に句読点が含まれないようにします。
高度なTTS設定を有効にするトグルAzureのカスタムスピーチモデルのデプロイメントにIDを追加できるようにします。
音声ログの有効化トグルAzure上のユーザーからの音声の録音とロギングを有効にします。
言語認識トグル認識用の代替言語を追加できます。最大 3 つの言語を選択できます。ルックアップ ノードの子ノードなど、他のノードでこれらの言語を再利用するには、次の形式を使用します: de-DE、fr-FR、en-US。

割り込み

割り込みは、バーチャルエージェントの割り込みを可能にします。

パラメータタイプ説明
スピーチに割り込むトグルバーチャルエージェントに発話を割り込ませる。
DTMFへの割り込みトグルDTMFディジットによるバーチャルエージェントの割り込みを有効にします。
最小限の単語を入力Slider音声ゲートウェイが割り込みとみなすために、ユーザが発言する必要のある最小単語数を定義します。

ユーザー入力タイムアウト

ユーザーからの入力がない場合の動作を定義します。

パラメータタイプ説明
ユーザー無入力モードドロップダウンユーザが時間内にバーチャルエージェントに入力を提供しなかった場合のアクションを定義します。
ユーザー無入力タイムアウト数値ユーザー入力のタイムアウトをミリ秒単位で定義します。
ユーザー入力再試行回数値通話を完了する前に、バーチャルエージェントがユーザーからの入力を得るために再試行する頻度を定義します。

DTMF

DTMF 収集を有効にします。

パラメータタイプ説明
DTMF 信号のキャプチャトグルバーチャルエージェントによる DTMF 信号のキャプチャを有効にします。
DTMF ディジット間タイムアウト数値収集された DTMF ディジット間のタイムアウトを定義します。
DTMF最大ディジット数値ユーザーが入力できる最大ディジット数を定義します。この制限に達すると、ディジット数は自動的に送信されます。
DTMF最小ディジット数値バーチャルエージェントに転送する前の最小ディジット数を定義します。サブミットディジット数はこれを上書きすることができます。
DTMF 送信ディジット数CognigyScriptDTMF 送信ディジットを定義します。この桁は、前に入力された桁を送信するために使用されます。この動作は、最小ディジット数の検証を上書きします。

連続ASR

連続ASRは、ボイスゲートウェイがユーザーの複数のSTT認識を連結し、1つのテキストメッセージとしてバーチャルエージェントに送信することを可能にします。

パラメータタイプ説明
連続ASRを有効にするトグル連続ASRを有効または無効にする。
連続 ASR 送信ディジット数CognigyScript蓄積された認識をフローに送信する特別なDTMFキーを定義する。
連続ASRタイムアウト数値蓄積された認識がフローに送信されるまでの沈黙のミリ秒数を定義する。

Advanced

v4.48で追加

パラメータタイプ説明
追加セッション・パラメータJSONJSONを使用して設定を構成することができます。上記のUI設定を使用して既に変更を行った場合、このフィールドはそれらを上書きします。また、JSONでは、ベンダー資格情報など、UIでは利用できない追加のパラメータを指定できます。

カスタムTTSまたはSTTプロバイダをvendorパラメータで指定する場合は、custom:<プロバイダ名>形式を使用します。例えば”vendor”: “custom:マイスピーチプロバイダ”

JSON example:

{
  "synthesizer": {
    "vendor": "microsoft",
    "language": "de-DE""voice": "en-US-JennyNeural"
  },
  "recognizer": {
    "vendor": "google",
    "language": "de-DE",
    "hints": [
      "help",
      "skip",
      "confirm"
    ],
    "hintBoost": 20
  }
}