多言語音声コーパスの構築

DataForce は、ASR エンジンを微調整するための高品質のデータで、世界的なオーディオハードウェアリーダーをサポートしています。

問題

自動音声認識 (ASR) システムは、ユーザーコマンドをテキストに変換し、それを自然言語処理システムで処理することができます。 ASR を効果的に実装するには、性別、年齢層、訛り、方言による音や声の変化、ASR システムが使用される環境に関連するバックグラウンドノイズなど、いくつかの側面を考慮する必要があります。この場合、クライアントは、英語、ヒンディー語、ドイツ語、フランス語、イタリア語の複数の人口統計グループからトレーニングデータとテストデータを収集する必要がありました。

ソリューション

DataForce は、独自のモバイルアプリである DataForce Contribute を使用して、いくつかのシナリオで音声データとバックグラウンドノイズを収集しました。私たちのアプリは、オーディオファイルが S/N 比やサンプリングレートなどのすべての技術的要件を満たしていることを確認しました。駐車、運転、窓の開閉状態ですべての音声コマンドと周囲の騒音を収集した後、音波を畳み込み、実際の環境をシミュレートするデータセットを作成しました。 DataForce のソリューションを使用して、クライアントはさまざまなシナリオで複数の言語の音声コマンドを理解できる効率的な ASR エンジンを開発およびテストしました。