「Custom Speech」によってAzure音声認識APIの日本語モデルの精度を向上
前回行ったAzure音声認識APIの実験の続き。
Azureの音声認識サービス「Speech to Text」にはユーザーのデータからモデルの再学習を行い認識精度を高める機能がある。
「Custom Speech」と呼ばれるその機能は「音声ファイル」、ラベル付きテキスト、音素による発音指定テキストなど様々なデータによるカスタマイズが可能。
扱う言語によって機能に制限がある、日本語について確認。
あまりにマイナーな言語過ぎて「プレーンテキスト」によるカスタマイズ以外はできないようだ。
したがって「プレーンテキスト」を利用したazureの音声認識カスタマイズを行う。