オプション|OCRソリューション
スマートに紙から情報を抽出して活用支援する
- Smart Paper Information Extraction System -
各種お問い合わせをメールにて承ります。
製品概要
当OCRソリューションは、手書きの注文書や請求書などの紙帳票からスマートに文字を自動認識し、その情報をルールベースのAIで補正しながら、FullWEBなどの他のシステムと連携するソリューションです。
全体の流れ
- 紙書類スキャン
- 複合機・スキャナ・タブレット端末などで、さまざまな紙書類をスキャンし、PDFや画像ファイルにします。
- OCR処理
- PDFや画像ファイルをOCR処理し、テキスト情報を生成します。
- 自動情報抽出
- テキスト情報を解析・補正しながら必要な情報を自動抽出します。
- 外部システム連携
- FullWEBなどの外部システムと連携し、情報活用を支援します。
![図:紙書類スキャンから外部システム連携までのフロー。その中で「OCRソリューション」は、PDFや画像をOCR処理→情報抽出/ルールベースのAIによる補正→CSVファイル生成や文書管理DBへの登録、までのフローを提供いたします。](/bs/fullweb/images-ocrsolution/img-ocrsolution-01.png)
- (注)サーチャブルPDF:PDFイメージに検索用テキストを目に見えない状態で埋め込んだもの
特長機能概要
ポイント1 情報抽出設定が簡単
- 必要な情報(=抽出ワード)の目印となる検索ワードを指定するだけで、近くの関連情報を自動で抽出します。(非定型帳票対応)
(例)「金額:¥237,956」と印刷されている場合、検索ワードとして「金額」と指定するだけで、関連情報「¥237,956」を自動抽出します。
- 正規表現(注)での抽出ワード指定や表形式の帳票も簡単に設定できます。
- 設定ツールのシミュレータで自動抽出結果を本作業前に事前確認し、意図しない抽出結果になった場合でも、手動で簡単に微調整できます。
- (注)正規表現:いくつかの文字列を一つの形式で表現するための表現方法。
- (例)3桁の数字を抽出したい時、正規表現で「¥d{3}」とだけ指定することで、「000」「123」「581」…など、全パターンの3桁の数字を抽出できます。
ポイント2 正確な情報に補正抽出
- OCR処理で生成されたテキスト情報に対し、ルールベースのAI(注)を使ってテキスト解析し、OCR誤変換などの補正をします。確認ツールで手動補正もできます。
- 自社帳票にあわせて補正ルールを定義し、自動抽出処理を進化させることができます。
(例)検索ワードを探す際、「金額計」「合計金額」などもすべて「合計」として認識するよう、補正ルールを定義できます。
-
自社のマスター情報を利用した補正抽出もできます。
(例)顧客マスターに「顧客コード」と「顧客名」の情報がある場合、「123」などの顧客コードを抽出し、「ABC商事」などの顧客名に変換できます。
- (注)ルールベースのAI:AIには「ルールベース」と「機械学習」という2つのアプローチがありますが、OCRソリューションは「機械学習」ではなく「ルールベース」を採用しています。
ポイント3 運用が簡単
- FullWEB連携オプションで属性情報と文書イメージをFullWEBに自動登録します。
- 処理したいPDFや画像ファイルを特定フォルダに保存するだけで自動処理します。
- 自動帳票認識により、様々な書類を同時に処理できます。
- 標準でCSV出力可能です。RPA等と連携できます。
- OCR処理に使うツールを選択できます。本システム標準OCRを使う以外に、他のツールで事前にOCR処理したPDFデータをOCRソリューションで処理することもできます。
(例)標準OCRでは対応してない、英数以外の手書きに対応したOCRツールを使う、等
特長機能:FullWEB連携
OCRソリューションのオプション「FullWEB連携オプション」は、FullWEBとの連携に必須のオプションです。
- 自動登録モジュールを使い、FullWEBへの情報登録などが簡単に行えます。
- 設定ツールから、FullWEBオプション「属性画面レイアウト機能」へのOCR抽出用パラメータを出力できます。
特長機能:情報抽出設定が簡単
検索ワードを指定するだけで抽出ワードを探索
必要な情報(=抽出ワード)の目印となる検索ワードを指定するだけで、近くの抽出ワードを自動で抽出します。
(非定型帳票対応)
表形式の帳票も簡単に設定
表明細の最大行数を「繰り返し数」として指定すると、表によって明細数が変わっても、印刷されている明細のみ抽出します。
◆検索ワードを指定し、抽出範囲と繰り返し数を指定
![帳票:表形式帳票の設定例。見出し行に記載される項目名(「金額」など)を検索ワードとして指定し、明細行の抽出範囲と繰り返し数を指定します。情報抽出時、「金額」を検索し、その下の「¥123,450」「¥9,870」…を連続抽出します。](/bs/fullweb/images-ocrsolution/img-ocrsolution-03.png)
◆構成する項目を指定し、繰り返し数とピッチを指定
![帳票:1レコードが複数行で構成される表の設定例。項目と、対応する値の行間(ピッチ)を指定する事で正しい位置の値を抽出します。](/bs/fullweb/images-ocrsolution/img-ocrsolution-04.png)
抽出ワードを自動抽出 → シミュレータで確認 → (必要な場合)手動調整
設定ツールで検索ワードを指定するだけで自動抽出します。シミュレータで自動抽出結果を本作業前に事前確認し、意図しない抽出結果になった場合でも、手動で簡単に微調整できます。
◆抽出ワード自動抽出
抽出ワードの目印となる検索ワードを指定します。パラメータ(検索ページ、マッチ率、データ型等)を設定することで微調整も可能です。
また表などの複数行抽出や、抽出ワードに対応した目印となる検索ワードが無い場合にはエリア指定や特定形式指定で対応します。書類別抽出テンプレートにより、書類の種類ごとに異なるパターン指定も可能です。
◆シミュレータで設定結果を画面確認
![画面:設定ツール詳細のシミュレータ。画面が左右に分かれ、左に帳票画像、右にOCR抽出処理実行結果が表示されます。帳票画像では抽出ワードの位置が赤枠で表示されます。右の結果表示には検索ワードと抽出ワードが対で表示されます。検索ワードが表見出し行の項目名の場合、それに対応して抽出ワードが複数行分表示されます。](/bs/fullweb/images-ocrsolution/img-ocrsolution-06.png)
特長機能:正確な情報に補正抽出
OCR結果をルールベースのAIで補正
PDFや画像をOCR処理しただけでは誤変換は避けられません。OCR処理で生成されたテキスト情報に対し、ルールベースのAIを使ってテキスト解析し、OCR誤変換などの補正をします。
◆OCR誤変換の補正機能
検索ワードのルール補正
検索ワード(OCR誤変換有):合言十
![ルール追加→](/bs/fullweb/images-ocrsolution/img-ocrsolution-arrow01.png)
「合計」として検索
抽出ワードのルール補正
抽出ワード:¥15,000
![ルール追加→](/bs/fullweb/images-ocrsolution/img-ocrsolution-arrow01.png)
数値のみに補正:15000
抽出ワード(OCR誤変換有):2014707726
![ルール追加→](/bs/fullweb/images-ocrsolution/img-ocrsolution-arrow01.png)
フォーマット補正:2014/07/26
抽出ワード(OCR誤変換有):10o6
![ルール追加→](/bs/fullweb/images-ocrsolution/img-ocrsolution-arrow01.png)
数値に補正:1006
◆非定型帳票毎の補正機能
検索ワードの類似ルール補正
検索ワード(OCR誤変換有):合言十
追加ワード:金額計
![ルール追加→](/bs/fullweb/images-ocrsolution/img-ocrsolution-arrow02.png)
「合計」として検索
◆特定形式の抽出機能
年月日、住所、電話番号、会社名、郵便番号ほか(正規表現)(注)
%年月日%
![ルール追加→](/bs/fullweb/images-ocrsolution/img-ocrsolution-arrow02.png)
2018年7月10日
%住所%
![ルール追加→](/bs/fullweb/images-ocrsolution/img-ocrsolution-arrow02.png)
大阪府八尾市亀井町
%電話番号%
![ルール追加→](/bs/fullweb/images-ocrsolution/img-ocrsolution-arrow02.png)
06-1234-5678
%会社名%
![ルール追加→](/bs/fullweb/images-ocrsolution/img-ocrsolution-arrow02.png)
QWE株式会社
- (注)上記例の「%~%」は本ソリューション独自の記法で、内部的には通常の正規表現に変換して処理しています。例えば「%年月日%」は「¥d{4}年¥d{1,2}月¥d{1,2}日」と同じ意味です。「%~%」表記ではなく通常の正規表現も使用できます。
OCR誤変換補正のカスタマイズ
自社帳票にあわせて自動抽出処理を進化させることができます。
◆ルール:分類、類似、定型、特定形式
- 分類ルール:数字、英語、記号、固定フォーム、金額、年月日
- 類似ルール:御中(様、殿)、合計(金額計、合計金額)
- 定型ルール:検索ワードの各パラメータ初期値
- 特定ルール:年月日、電話番号、郵便番号、住所、会社名ほか(正規表現)
◆その他補正抽出機能
- 固定出力ワード:帳票毎に決まったワードをCSV出力することができます
(例)XX会社の発注書を処理した場合、CSV出力に固定出力ワード「XX会社」を必ず含める、といったことができます。
- マスター変換 :抽出したワードからマスター参照させて関連ワードをCSV出力することができます
(例)顧客マスターに「顧客コード」と「顧客名」の情報がある場合、「123」などの顧客コードを抽出し、「ABC商事」などの顧客名に変換できます。
![画面:固定出力ワード、マスター変換設定。固定出力ワードは複数指定できます(出力1、出力2、出力3…)。例えば出力1に「XX会社」と指定すれば、この帳票のCSV出力に必ずワード「XX会社」を含めることができます。またマスター変換も複数指定できます(抽出1、抽出2、抽出3…)。例えば抽出1にCSVファイルパス「顧客マスター」を指定すれば、帳票をOCR処理するごとに、「抽出1」で抽出されたワードをCSVファイル「顧客マスター」に追記していくことができます。](/bs/fullweb/images-ocrsolution/img-ocrsolution-07.png)
特長機能:運用が簡単
自動処理フォルダ
特定フォルダにデータを保存するだけで自動処理します。
![図:紙書類からスキャン→PDF・画像ファイル→OCR処理→抽出結果確認/修正までのフロー。その中のイメージデータからOCR処理の流れは、特定フォルダにPDF・画像ファイルを置くだけで自動処理されます。](/bs/fullweb/images-ocrsolution/img-ocrsolution-08.png)
◆連携ツール: 自動処理フォルダを監視して、一連の処理を実行/モニタリングできます
![画面:連携ツール。画面下部に処理状況が1行1処理単位で表示されます。1行は処理日時、処理内容が表示されます。画面上部に抽出済件数、エラー件数が表示され、抽出済件数をクリックすると確認ツールが起動します。](/bs/fullweb/images-ocrsolution/img-ocrsolution-09.png)
◆確認ツール: 帳票イメージを見ながら抽出結果を確認/修正できます
![画面:確認ツール。画面が左右に分かれ、左にOCR処理した帳票画像、右にOCR抽出処理実行結果が表示されます。帳票画像では抽出ワードの位置が赤枠で表示されます。右の結果表示には検索ワードと抽出ワードが対で表示されます。誤抽出がある場合、この画面で修正できます。](/bs/fullweb/images-ocrsolution/img-ocrsolution-10.png)
帳票種別の自動認識
自動帳票認識により、様々な書類を同時に処理できます。
![帳票:様々な種類の帳票を自動認識して、指定された帳票ごとの検索ワードで検索を行います。(例では出張作業報告書では御中・発行日・品名を検索、請求書では発行日・No・会社で検索など)](/bs/fullweb/images-ocrsolution/img-ocrsolution-11.png)
抽出結果はCSVファイルに出力
- CSVファイル名を抽出データから生成することもできます。
(例)発注書の場合、抽出データの発注No.「2018060012」と顧客名「ABC商事」から「発注書2018060012_ABC商事.csv」などの名前のCSVファイルを出力できます。
![イメージ:CSVファイル](/bs/fullweb/images-ocrsolution/img-ocrsolution-12.png)
![↓](/bs/fullweb/images-ocrsolution/img-ocrsolution-arrowdown.png)
業務システムやRPAツールなど、他のシステムと連携できます(注)。
- (例)WinActor®(WinActor®はNTTアドバンステクノロジ株式会社の登録商標です。)
![ロゴ:WinActor®](/bs/fullweb/images-ocrsolution/img-ocrsolution-13.png)
WinActor(ウィンアクター)RPAソリューション 紹介ページへ
本システム標準OCRツール
- OCR未処理のPDFイメージデータや画像データが入力された場合、本システム標準OCRツールでサーチャブルPDFデータを生成します(自動判定)。
- 標準OCRツール: ABBYY FineReader Engine(ABBYY社製)
- スキャンした紙文書、PDF、画像ファイルなどから文字やバーコードを読み取り、文字検索可能なPDFファイル(サーチャブルPDFデータ)を生成
- 日本語/英語 含む132言語のOCRに対応、英数手書きOCR(オプション)に対応
- 年間数千社がABBYYの技術を使用して、93億ページ(注)以上の文書と帳票を処理している
- (注)ABBYY社の社内データに基づく値
OCR処理ツールを選択可能
本システム標準OCRツールを使う以外に、他のツールで事前にOCR処理したPDFデータをOCRソリューションで処理することもできます。
◆他のツールでOCR処理したPDFデータの例
- 複合機等でスキャンすると同時に内蔵OCR機能で生成したサーチャブルPDFデータ
- スキャンした後に他のOCRツールで生成したサーチャブルPDFデータ
(例)標準OCRでは対応してない、英数以外の手書きに対応したOCRツールを使う、等
![写真:複合機](/bs/fullweb/images-ocrsolution/img-ocrsolution-15.jpg)
- CADツール等で生成したPDFデータ(テキストオブジェクト)
![図:CAD図](/bs/fullweb/images-ocrsolution/img-ocrsolution-16.jpg)
構成図
ダウンロード
お問い合わせ・資料請求
各種お問い合わせをメールにて承ります。