Azure「Speech To Text」 の使い方
音声認識技術によって音声ファイルをテキスト化したいという声がある。
音声認識技術によって
音声ファイルをテキスト化したい
以前、5種類の音声認識APIを比較した。
その結果、日本語の音声認識精度が最も高かったのはMicrosoft Azureの「Speech To Text」。
そこで、Microsoft Azure「Speech To Text」APIの使い方を記す。
音声認識技術によって音声ファイルをテキスト化したいという声がある。
以前、5種類の音声認識APIを比較した。
その結果、日本語の音声認識精度が最も高かったのはMicrosoft Azureの「Speech To Text」。
そこで、Microsoft Azure「Speech To Text」APIの使い方を記す。
音声認識技術によって音声から文字起こししたい。
既存のAPIが複数あるため実験により性能を比較した。
基本情報↓
名前 | 対応フォーマット | 無料枠 | 料金 | 備考 |
---|---|---|---|---|
Microsoft Azure Speech-to-Text | wav, ogg | 5時間/月 | 1ドル/1時間 | |
AWS Amazon transcribe | wav, ogg, flac, mp3 など | 60分/月 | 1.44ドル/1時間 | 課金対象は1秒単位 |
Google Cloud Speech-to-Text | wav, ogg, flac, mp3 など | 60分/月 | 1.44ドル/1時間 | 課金対象は15秒切り上げ |
アドバンスト・メディア AmiVoice | wav, flac, mp3 など | 60分/月 | 99円/1時間 | 課金対象は音声データ中の発話区間のみ |
Apple SpeechFramework | m4a | 1000リクエスト/1時間 | 無料 | iOS iPadOS macOS限定 |
認識精度↓
実験対象 | Microsoft Azure | AWS | AmiVoice | Apple | |
---|---|---|---|---|---|
全部 | 92.31% | 89.18% | 83.57% | 82.86% | 89.67% |
ナレーション | 93.63% | 90.35% | 85.63% | 85.22% | 89.22% |
セリフ | 90.78% | 87.83% | 81.21% | 80.14% | 90.19% |
男性 | 94.58% | 91.44% | 90.03% | 86.13% | 90.79% |
女性 | 89.97% | 86.85% | 76.92% | 79.49% | 88.52% |
最も認識精度が高いのは「Microsoft Azure」。
安いのは「AmiVoice」。
AppleはiOSアプリなどに組み込んで使用する形式で使いづらいが無料。
最も精度の良かった「Microsoft Azure」の音声認識APIの使い方は以下の記事に記している。
以降、実験の詳細を記す。
真のジャンプ読者であればジャンプ新連載の1話を読んだだけで何話連載するか分かるはず。
週刊少年ジャンプ新連載の1話だけを読んで何話連載するか当てる。
お正月の恒例行事なのでお正月に結果をまとめたい。
と言い続けて正月どころか旧正月も過ぎた。
詳細は第1回に書いてある。
真のジャンプ読者であればジャンプ新連載の1話を読んだだけで何話連載するか分かるはず。
週刊少年ジャンプ新連載の1話だけを読んで何話連載するか当てる。
お正月の恒例行事なのでお正月に結果をまとめたい。
といつも書いていたがすっかり忘れていた。
そのうちまとめるか来年に持ち越す。
詳細は第1回に書いてある。
Twitter API v2
の機能の中にUser Tweet timeline
というものがあり、これによって任意のアカウントのタイムラインを取得できる。
これを利用して、コウメ太夫氏のTwitterアカウントから「#まいにちチクショー」を取得する。
以下に示す「コウメ太夫百人一首」を作ることが目的。
物体検出を行うためにはアノテーションという苦行に耐える必要がある。
画像のどこに物体があるか目視で確認してマウスで一本一本線を引く作業だ。
当然アノテーションをサポートするためのツールはいくつか存在する。
「Labelme」、「Labelimg」など便利に使っていたが、「EISeg」という最高のツールがそれらを過去のものにした。
下の記事を見たらもうすべてわかるがポンポンクリックするだけでアノテーションできる。
セットアップの方法については記事を書かれた当時と状況が違うようなのでそこだけ書く。
「コウメ太夫百人一首」とはコウメ太夫氏の「#まいにちチクショー」によって作られた百人一首を楽しめるサービス。
百人一首とは100人の歌人一人につき一首ずつ歌を選んだものであるため、「コウメ太夫百人一首」は百人一首ではない。
本来は一人二千百十八首というべきだが語呂が悪いので百人一首とする。
コウメ太夫氏の歌による百人一首はネットを中心に広く求められていた。
少なくとも2015年の時点で「コウメ太夫百人一首」という単語は登場している。
しかし、実際に「コウメ太夫百人一首」を遊ぶことのできるサービスは見つからず、したがって作ることとした。
YOLOXという物体検出モデルがある。
これをWindows10の環境に導入して学習を行いたい。
公式のGitHubリポジトリはおそらくUnix系を前提としているのか「ReadMe」に素直に従うとエラーが起こる。
ここで、Windows10によるYOLOXの環境構築からCOCOデータセットを利用した学習までの実現方法を記載する。
真のジャンプ読者であればジャンプ新連載の1話を読んだだけで何話連載するか分かるはず。
週刊少年ジャンプ新連載の1話だけを読んで何話連載するか当てる。
お正月の恒例行事なのでお正月に結果をまとめたい。
詳細は第1回に書いてある。
Update your browser to view this website correctly. Update my browser now