アノテーションと書き起こしサービス
TRANSPERFECT DATAFORCE

アノテーションは、データに意味のあるラベルを付け、さまざまなシステムの学習手段として活用できるようにするものです。データは、機械学習で使用できるようにするため、適切な方法で構造化されていることが極めて重要です。アノテーションには多くの作業タイプがあり、プロジェクトのニーズに応じて異なります。言語アノテーションの作業には、言語構文のアノテーション、品詞タグ付け、固有表現アノテーションをはじめとする、多くの種類があります。

「教師あり」学習に基づいて自然言語処理(NLP)が行われる場合、タグ付け/ラベリング処理されたデータは非常に重要なものとなります。シンプルな例として、以下が挙げられます。

照応表現(テキストにある別のものを指す代名詞など)を追跡することで、会話を行うバーチャルアシスタント。

プロジェクトにとって最も重要な情報を検索するために、テキストをスキャンするデータ抽出システム。

重要な情報を無駄なく収集するために、テキスト内の重要性が低い部分をハイライトするテキスト要約ツール。

 

書き起こしは、基本的に音声テキストに文書形式のラベルを付ける作業です。書き起こしには、それ自体に言語的(言語としての人間の音)および非言語的(車が通る音や風が吹いている音など、人間以外の音やその他の音)アノテーションが含まれている場合があります。

書き起こしは、自動音声認識システムを改善するために使われる場合もあります。このシステムは、デバイスを通してユーザーが言ったことを自動的に文書に書き起こすために使用されます。これは音声データを処理するうえでの第一歩となります。なぜなら、音声データをうまく文書形式に変換できれば、そのテキストに他のNLP作業を適用できるようになるからです。

TransPerfect DataForceは、アノテーションと書き起こし作業の両方を、シンプルかつ効率的な戦略に基づいて行います。要件を定義しワークフローを決定し、DataForceは社内でパイロットテストを行い、お客様にその結果を伝えます。お客様の承認が得られ次第、プロジェクトを全面的に開始します。

 

DataForceは、全世界に35万人以上のエキスパートと、200以上の言語を網羅する言語スペシャリストを擁しています。DataForceは独自のプラットフォームを使用していますが、お客様やサードパーティのツールを使用することも可能です。そうすることで、お客様のデータを常に管理下に置くことができます。