テキストクリーナー
v4.58でアップデート
Cognigy.AIは、テキストメッセージや文字起こしされた音声メッセージなどのユーザー入力の前処理をサポートする様々な機能を備えています。これらの機能により、Cognigy.AIでのデータ処理が簡単になります。
例えば、ユーザーが品番をalpha tango hotel double seven three nineからLondonのLとCanadaのCを引いたものを綴ると、ath 7739 - lc
となります。
これらの関数は、英語(en
)とドイツ語(de
)のロケールに対応しています。
これらの関数は、以下のエンティティで使用できます:
関数
関数名 | 説明 |
cleanDisallowedSymbols | 明示的に許可されていない記号をすべて削除します。デフォルトではすべての文字と数字が許可され、さらに追加で許可される記号を設定することができます。 |
resolveSpelledOutNumbers | すべての数字の単語を数値表現に置き換えます。例えば、”five and three hundred nineteen”を”5 319″に変換します。 |
resolvePhoneticAlphabet | 表音文字の一部であるすべての単語を検出し、置き換えます。例えば、”alpha tango lima”を”a t l”に変換します。 |
replaceSpecialWords (非推奨) | 具体的に設定された単語をその置換語に置き換えます。例えば、”lufthansa”を”lh”に変換します。 この関数はv4.58から非推奨となりました。代わりにreplaceSpecialPhrases関数をご利用ください。 |
replaceSpecialPhrases | 特定の語句を置換語に置き換えます。例えば、”Conversational AI “は “CAI “に、”New York “は “NY “に、”lufthansa “は “lh “に変換されます。 |
resolveSpelledOutAlphabet | “a for anton b as in bertram “のようなフレーズを “a b “に変換します。 |
resolvePhoneticCounters | “3 times 2 “を “222 “に、”double 4 “を “44 “に変換します。特殊なルールの詳細については、 [resolvePhoneticCountersのルール]のセクションをご覧ください。 |
contractSingleCharacters | 単独で存在するすべての文字を完全な文字列に結合する。例えば、”my name is c o g n i g y”を”my name is cognigy”に変換します。 |
contractNumberGroups | 隣り合うすべての数字を連結します。例えば、”彼の番号は333 43 22 44です” を “彼の番号は333432244です”に変換します。 |
trimResult | 文字列の先頭と末尾をトリムし、全角スペース(またはそれ以上)を半角スペースに置き換えます。 |
resolvePhoneticCountersのルール
この関数は、”3 times 2 “のようなフレーズを、”3 times 2 “を “222”、”double 4 “を “44 “のような数値表現に変換するように設計されている。この関数は、乗数(例えば “3 times “や “double”)と被乗数(例えば “2 “や “4”)の両方を含む文を扱います。被乗数は数字でも文字でもよい。
曖昧な例もあります。例えば、”double ap 3 4 “というフレーズを考えてみましょう。”aap34 “とも “apap34 “とも解釈できます。
このような曖昧さを避けるために、CognigyではMultiplicand型について以下のルールを定義しました:
Multiplicand型(掛け算型) | ルール | 例 |
数 | 2 times 3, 2 times 16 | |
被乗数が13より小さい数 | 被乗数はそれ自体を繰り返します。 | 2 times 3は”33″を返します。 2 times 11は”1111″を返します。 |
被乗数が13以上の数 | 1桁目だけが繰り返される。 「3×25」よりも「3×4」や「3×12」の方がよく使われるため、1桁目が優先されます。 | 2 times 16は”116″を返します。 |
文字 | 2 times alpha, 2 times ox | |
被乗数が表音文字 | それは解決され、文字が繰り返されます。 | 2 times alphaは”aa”を返します。 |
被乗数には複数の文字があり、表音文字ではない | 最初の文字だけが繰り返されます。 Cognigyは、STT(Speech-to-Text)システムがユーザー入力を誤って転記し、ユーザーが別のことを言いたかったと仮定しています。 | 2 times oxは”oox”を返します。 (“2回 o, x “と言いたかったと仮定する) |