多言語音声コーパスの構築

DataForce は、ASR エンジンを微調整するための高品質のデータで、世界的なオーディオ ハードウェア リーダーをサポートしています。

問題

自動音声認識 (ASR) システムは、ユーザー コマンドをテキストに変換し、それを自然言語処理システムで処理することができます。 ASR を効果的に実装するには、性別、年齢層、訛り、方言による音や声の変化、ASR システムが使用される環境に関連するバックグラウンド ノイズなど、いくつかの側面を考慮する必要があります。この場合、クライアントは、英語、ヒンディー語、ドイツ語、フランス語、イタリア語の複数の人口統計グループからトレーニング データとテスト データを収集する必要がありました。

ソリューション

DataForce は、独自のモバイル アプリである DataForce Contribute を使用して、いくつかのシナリオで音声データとバックグラウンド ノイズを収集しました。私たちのアプリは、オーディオ ファイルが S/N 比やサンプリング レートなどのすべての技術的要件を満たしていることを確認しました。駐車、運転、窓の開閉状態ですべての音声コマンドと周囲の騒音を収集した後、音波を畳み込み、実際の環境をシミュレートするデータセットを作成しました。 DataForce のソリューションを使用して、クライアントはさまざまなシナリオで複数の言語の音声コマンドを理解できる効率的な ASR エンジンを開発およびテストしました。

Audio Wave