トップ > ソリューション > 動かないAIを生み出さないため、不揃いなデータをデータ整形(データクレンジング)で統一しませんか?

動かないAIを生み出さないため、不揃いなデータをデータ整形(データクレンジング)で統一しませんか?

弊社の翻訳業務で培ったデータ前処理技術をAIデータクレンジングに利用すれば、 不揃いなデータを効率的に統一できます。その結果、AIにかける前のデータの前処理作業に費やしていた膨大な時間を大幅に短縮し、本来の分析に専念できます。

 このページのPDF版はこちら

課題

翻訳作業の前には、必ず、翻訳前処理作業を行います。翻訳前の原文は、形式もバラバラで、使われている用語も不統一な場合があります。

場合によっては、オリジナルのアプリケーションファイルがなく、PDFだけしかなかったり、PDFになっていたとしても、文字データを抽出できない画像化されたデータだったりと状態は様々です。

また、データ変換が必要な場合でも、PDFをテキスト変換すると不要な改行や空白が入ってしまったりして、それを取り除く作業が発生します。

しかし、この前処理作業を怠ると、翻訳作業の後工程に悪影響が出て、結局、二度手間ややり直しによるムダな作業が発生し、納期遅延やコスト増大につながってしまいます。

逆に前処理作業を行った後では、スムーズに業務が進み、納期短縮、コスト削減、クオリティ維持につながります。

AIのデータ活用でも状況は同様です。

AIにかける前のデータ形式がテキストデータ、エクセル(Excel)、PDF、Word、XML、JSONなどバラバラな場合、形式の統一、標準化などのAI学習用のデータの加工は自動化が難しいため、どうしても多くの時間をとられてしまいます。この前工程作業が本来の分析作業の足かせとなっています。

解決策

AI学習用データの前処理工程をできる限り自動化することで本来の業務に専念できます。

その1:データ形式が不ぞろいな場合のデータ形式統一作業の自動化

例:

  • Word→テキストへの変換

  • PDF→テキストへの変換

  • スキャニングされたデータ→テキストへの変換

  • その他、様々な変換に対応しています

その2:データ変換時に不要な改行や空白などを取り除く作業の自動化

その3:大量文書(紙または画像化されたPDFしかない場合)の最適なOCR処理とチェック

その4:非構造化データ(Word、PDF等)の構造化データ(XML)への変換

まとめ

AI学習用データの前処理工程をできる限り自動化することで、自動変換による時間短縮とコスト削減、統一・標準化によるクオリティ維持をはかれます。

その結果、間違った翻訳、動かないAIの発生など、起こり得る不具合を未然に防ぐ、予防対策につながります。

前処理工程は、一番大切な翻訳の精度、AIの精度の根源をカバーする重要な役割を果たします。弊社には、この前処理工程でのお客様のお悩みを解決するためのノウハウがあります。

(2019年7月1日)

お電話からお問い合わせ

代表電話
03-3355-4411
営業日 :
カレンダーを表示
受付時間:
9:00~17:30