Pythonを用いたAzure APIによる音声認識の方法

Pythonを用いたAzure APIによる音声認識の方法

Azure「Speech To Text」 の使い方

音声認識技術によって音声ファイルをテキスト化したいという声がある。


音声認識技術によって
音声ファイルをテキスト化したい

以前、5種類の音声認識APIを比較した。
その結果、日本語の音声認識精度が最も高かったのはMicrosoft Azureの「Speech To Text」。

そこで、Microsoft Azure「Speech To Text」APIの使い方を記す。

マスターデュエル マリンセスデッキでプラチナ1到達

マスターデュエル マリンセスデッキでプラチナ1到達

遊戯王マスターデュエル

マスターデュエルとは「遊戯王マスターデュエル」という遊戯王OCGの超面白いゲームであり、プラチナ1とはマスターデュエルにおけるランクマッチの最高ランクを指す。

最高ランクといっても過半数勝つことができれば後は対戦数さえ稼げば達成できるので頑張ればなんとかなる。
今回頑張ってなんとかなったため記念にデッキを残す。



※マスターデュエルのランクマッチは1か月ごとにランクがリセットされ、その単位をシーズンと呼ぶ。
今回の記事はシーズン2(2月1日~28日)においてプラチナ1に到達したことについて記載している。


そうだね

日本語音声認識API主要5社比較

日本語音声認識API主要5社比較

5種類の音声認識APIを性能評価して比較

音声認識技術によって音声から文字起こししたい。
既存のAPIが複数あるため実験により性能を比較した。

基本情報↓


名前対応フォーマット無料枠料金備考
Microsoft Azure
Speech-to-Text
wav, ogg5時間/月1ドル/1時間
AWS
Amazon transcribe
wav, ogg, flac, mp3 など60分/月1.44ドル/1時間課金対象は1秒単位
Google Cloud
Speech-to-Text
wav, ogg, flac, mp3 など60分/月1.44ドル/1時間課金対象は15秒切り上げ
アドバンスト・メディア
AmiVoice
wav, flac, mp3 など60分/月99円/1時間課金対象は音声データ中の発話区間のみ
Apple
SpeechFramework
m4a1000リクエスト/1時間無料iOS
iPadOS
macOS限定

認識精度↓


実験対象Microsoft AzureAWSAmiVoiceGoogleApple
全部92.31%89.18%83.57%82.86%89.67%
ナレーション93.63%90.35%85.63%85.22%89.22%
セリフ90.78%87.83%81.21%80.14%90.19%
男性94.58%91.44%90.03%86.13%90.79%
女性89.97%86.85%76.92%79.49%88.52%

最も認識精度が高いのは「Microsoft Azure」。
安いのは「AmiVoice」。
AppleはiOSアプリなどに組み込んで使用する形式で使いづらいが無料。

最も精度の良かった「Microsoft Azure」の音声認識APIの使い方は以下の記事に記している。

以降、実験の詳細を記す。

格付けチェック「ジャンプ新連載」 第14回「地球の子」

格付けチェック「ジャンプ新連載」 第14回「地球の子」

格付けチェック「ジャンプ新連載」

真のジャンプ読者であればジャンプ新連載の1話を読んだだけで何話連載するか分かるはず。
週刊少年ジャンプ新連載の1話だけを読んで何話連載するか当てる。

お正月の恒例行事なのでお正月に結果をまとめたい。
と言い続けて正月どころか旧正月も過ぎた。

詳細は第1回に書いてある。

格付けチェック「ジャンプ新連載」 第13回「あかね噺」

格付けチェック「ジャンプ新連載」 第13回「あかね噺」

格付けチェック「ジャンプ新連載」

真のジャンプ読者であればジャンプ新連載の1話を読んだだけで何話連載するか分かるはず。
週刊少年ジャンプ新連載の1話だけを読んで何話連載するか当てる。

お正月の恒例行事なのでお正月に結果をまとめたい。
といつも書いていたがすっかり忘れていた。
そのうちまとめるか来年に持ち越す。

詳細は第1回に書いてある。

Twitter API v2の使い方6[コウメ太夫氏の#まいにちチクショーを取得する]

Twitter API v2の使い方6[コウメ太夫氏の#まいにちチクショーを取得する]

Twitter API v2を使って特定アカウントのツイートを取得

Twitter API v2の機能の中にUser Tweet timelineというものがあり、これによって任意のアカウントのタイムラインを取得できる。

これを利用して、コウメ太夫氏のTwitterアカウントから「#まいにちチクショー」を取得する。
以下に示す「コウメ太夫百人一首」を作ることが目的。

Windows10 AnacondaでEISegを導入してアノテーション

Windows10 AnacondaでEISegを導入してアノテーション

EISeg便利

物体検出を行うためにはアノテーションという苦行に耐える必要がある。
画像のどこに物体があるか目視で確認してマウスで一本一本線を引く作業だ。

当然アノテーションをサポートするためのツールはいくつか存在する。
「Labelme」、「Labelimg」など便利に使っていたが、「EISeg」という最高のツールがそれらを過去のものにした。

下の記事を見たらもうすべてわかるがポンポンクリックするだけでアノテーションできる。

セットアップの方法については記事を書かれた当時と状況が違うようなのでそこだけ書く。

コウメ太夫百人一首リリース

コウメ太夫百人一首リリース

コウメ太夫百人一首

「コウメ太夫百人一首」とはコウメ太夫氏の「#まいにちチクショー」によって作られた百人一首を楽しめるサービス。

百人一首とは100人の歌人一人につき一首ずつ歌を選んだものであるため、「コウメ太夫百人一首」は百人一首ではない。
本来は一人二千百十八首というべきだが語呂が悪いので百人一首とする。

コウメ太夫氏の歌による百人一首はネットを中心に広く求められていた。
少なくとも2015年の時点で「コウメ太夫百人一首」という単語は登場している。
しかし、実際に「コウメ太夫百人一首」を遊ぶことのできるサービスは見つからず、したがって作ることとした。

Windows10でYOLOXの学習

Windows10でYOLOXの学習

YOLOXをWindows10で使いたい

YOLOXという物体検出モデルがある。
これをWindows10の環境に導入して学習を行いたい。

公式のGitHubリポジトリはおそらくUnix系を前提としているのか「ReadMe」に素直に従うとエラーが起こる。

ここで、Windows10によるYOLOXの環境構築からCOCOデータセットを利用した学習までの実現方法を記載する。

格付けチェック「ジャンプ新連載」 第12回「ドロンドロロン」

格付けチェック「ジャンプ新連載」 第12回「ドロンドロロン」

格付けチェック「ジャンプ新連載」

真のジャンプ読者であればジャンプ新連載の1話を読んだだけで何話連載するか分かるはず。
週刊少年ジャンプ新連載の1話だけを読んで何話連載するか当てる。

お正月の恒例行事なのでお正月に結果をまとめたい。

詳細は第1回に書いてある。

Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×