VibratoをLambdaで使いたい
Vibratoは高速便利な形態素解析器。
以下の記事参照。
これをAWS Lambdaで使いたい。
Vibratoは高速便利な形態素解析器。
以下の記事参照。
これをAWS Lambdaで使いたい。
AWS Lambda関数で標準でないPythonライブラリ(今回の場合はopenai、linebot-sdkなど)を使用するには、それらのライブラリを事前に用意する必要がある。
以下2つの方法があり、
Lambdaレイヤーを作成する方法だと、
というメリットがある。
したがってLambdaレイヤーを作成する。
AWS Lambdaは、Amazon Linux上で実行されるため、使用するライブラリや依存関係はAmazon Linux環境に合わせる必要がある。
具体的に言うとWindows上でpythonライブラリを用意してアップロードしても謎のエラーが発生することがあるので避けた方が良い。
Dockerを使用して仮想環境上にAmazon Linuxを再現することでこの問題を解決する。
具体例をもとにその方法を記す。
音声認識技術によって音声から文字起こししたい。
既存のAPIが複数あるため実験により性能を比較した。
基本情報↓
名前 | 対応フォーマット | 無料枠 | 料金 | 備考 |
---|---|---|---|---|
Microsoft Azure Speech-to-Text | wav, ogg | 5時間/月 | 1ドル/1時間 | |
AWS Amazon transcribe | wav, ogg, flac, mp3 など | 60分/月 | 1.44ドル/1時間 | 課金対象は1秒単位 |
Google Cloud Speech-to-Text | wav, ogg, flac, mp3 など | 60分/月 | 1.44ドル/1時間 | 課金対象は15秒切り上げ |
アドバンスト・メディア AmiVoice | wav, flac, mp3 など | 60分/月 | 99円/1時間 | 課金対象は音声データ中の発話区間のみ |
Apple SpeechFramework | m4a | 1000リクエスト/1時間 | 無料 | iOS iPadOS macOS限定 |
認識精度↓
実験対象 | Microsoft Azure | AWS | AmiVoice | Apple | |
---|---|---|---|---|---|
全部 | 92.31% | 89.18% | 83.57% | 82.86% | 89.67% |
ナレーション | 93.63% | 90.35% | 85.63% | 85.22% | 89.22% |
セリフ | 90.78% | 87.83% | 81.21% | 80.14% | 90.19% |
男性 | 94.58% | 91.44% | 90.03% | 86.13% | 90.79% |
女性 | 89.97% | 86.85% | 76.92% | 79.49% | 88.52% |
最も認識精度が高いのは「Microsoft Azure」。
安いのは「AmiVoice」。
AppleはiOSアプリなどに組み込んで使用する形式で使いづらいが無料。
最も精度の良かった「Microsoft Azure」の音声認識APIの使い方は以下の記事に記している。
以降、実験の詳細を記す。
Twitter API
というものを使うとTwitter上の情報を集めたりできて便利らしいので実験する。
取得ツイートのCSV出力 → AWS上で実行 → AWS上で定期実行
までの作業を一通り行う。
最終的に以下のようにする。
前回(ツイート取得まで)はこれ。
Update your browser to view this website correctly. Update my browser now