オプション|OCRソリューション
スマートに紙から情報を抽出して活用支援する
- Smart Paper Information Extraction System -
各種お問い合わせをメールにて承ります。
製品概要
当OCRソリューションは、手書きの注文書や請求書などの紙帳票からスマートに文字を自動認識し、その情報をルールベースのAIで補正しながら、FullWEBなどの他のシステムと連携するソリューションです。
全体の流れ
- 紙書類スキャン
- 複合機・スキャナ・タブレット端末などで、さまざまな紙書類をスキャンし、PDFや画像ファイルにします。
- OCR処理
- PDFや画像ファイルをOCR処理し、テキスト情報を生成します。
- 自動情報抽出
- テキスト情報を解析・補正しながら必要な情報を自動抽出します。
- 外部システム連携
- FullWEBなどの外部システムと連携し、情報活用を支援します。

- (注)サーチャブルPDF:PDFイメージに検索用テキストを目に見えない状態で埋め込んだもの
特長機能概要
ポイント1 情報抽出設定が簡単
- 必要な情報(=抽出ワード)の目印となる検索ワードを指定するだけで、近くの関連情報を自動で抽出します。(非定型帳票対応)
(例)「金額:¥237,956」と印刷されている場合、検索ワードとして「金額」と指定するだけで、関連情報「¥237,956」を自動抽出します。
- 正規表現(注)での抽出ワード指定や表形式の帳票も簡単に設定できます。
- 設定ツールのシミュレータで自動抽出結果を本作業前に事前確認し、意図しない抽出結果になった場合でも、手動で簡単に微調整できます。
- (注)正規表現:いくつかの文字列を一つの形式で表現するための表現方法。
- (例)3桁の数字を抽出したい時、正規表現で「¥d{3}」とだけ指定することで、「000」「123」「581」…など、全パターンの3桁の数字を抽出できます。
ポイント2 正確な情報に補正抽出
- OCR処理で生成されたテキスト情報に対し、ルールベースのAI(注)を使ってテキスト解析し、OCR誤変換などの補正をします。確認ツールで手動補正もできます。
- 自社帳票にあわせて補正ルールを定義し、自動抽出処理を進化させることができます。
(例)検索ワードを探す際、「金額計」「合計金額」などもすべて「合計」として認識するよう、補正ルールを定義できます。
-
自社のマスター情報を利用した補正抽出もできます。
(例)顧客マスターに「顧客コード」と「顧客名」の情報がある場合、「123」などの顧客コードを抽出し、「ABC商事」などの顧客名に変換できます。
- (注)ルールベースのAI:AIには「ルールベース」と「機械学習」という2つのアプローチがありますが、OCRソリューションは「機械学習」ではなく「ルールベース」を採用しています。
ポイント3 運用が簡単
- FullWEB連携オプションで属性情報と文書イメージをFullWEBに自動登録します。
- 処理したいPDFや画像ファイルを特定フォルダに保存するだけで自動処理します。
- 自動帳票認識により、様々な書類を同時に処理できます。
- 標準でCSV出力可能です。RPA等と連携できます。
- OCR処理に使うツールを選択できます。本システム標準OCRを使う以外に、他のツールで事前にOCR処理したPDFデータをOCRソリューションで処理することもできます。
(例)標準OCRでは対応してない、英数以外の手書きに対応したOCRツールを使う、等
特長機能:FullWEB連携
OCRソリューションのオプション「FullWEB連携オプション」は、FullWEBとの連携に必須のオプションです。
- 自動登録モジュールを使い、FullWEBへの情報登録などが簡単に行えます。
- 設定ツールから、FullWEBオプション「属性画面レイアウト機能」へのOCR抽出用パラメータを出力できます。
特長機能:情報抽出設定が簡単
検索ワードを指定するだけで抽出ワードを探索
必要な情報(=抽出ワード)の目印となる検索ワードを指定するだけで、近くの抽出ワードを自動で抽出します。
(非定型帳票対応)
表形式の帳票も簡単に設定
表明細の最大行数を「繰り返し数」として指定すると、表によって明細数が変わっても、印刷されている明細のみ抽出します。
◆検索ワードを指定し、抽出範囲と繰り返し数を指定

◆構成する項目を指定し、繰り返し数とピッチを指定

抽出ワードを自動抽出 → シミュレータで確認 → (必要な場合)手動調整
設定ツールで検索ワードを指定するだけで自動抽出します。シミュレータで自動抽出結果を本作業前に事前確認し、意図しない抽出結果になった場合でも、手動で簡単に微調整できます。
◆抽出ワード自動抽出
抽出ワードの目印となる検索ワードを指定します。パラメータ(検索ページ、マッチ率、データ型等)を設定することで微調整も可能です。
また表などの複数行抽出や、抽出ワードに対応した目印となる検索ワードが無い場合にはエリア指定や特定形式指定で対応します。書類別抽出テンプレートにより、書類の種類ごとに異なるパターン指定も可能です。
◆シミュレータで設定結果を画面確認

特長機能:正確な情報に補正抽出
OCR結果をルールベースのAIで補正
PDFや画像をOCR処理しただけでは誤変換は避けられません。OCR処理で生成されたテキスト情報に対し、ルールベースのAIを使ってテキスト解析し、OCR誤変換などの補正をします。
◆OCR誤変換の補正機能
検索ワードのルール補正
検索ワード(OCR誤変換有):合言十

「合計」として検索
抽出ワードのルール補正
抽出ワード:¥15,000

数値のみに補正:15000
抽出ワード(OCR誤変換有):2014707726

フォーマット補正:2014/07/26
抽出ワード(OCR誤変換有):10o6

数値に補正:1006
◆非定型帳票毎の補正機能
検索ワードの類似ルール補正
検索ワード(OCR誤変換有):合言十
追加ワード:金額計

「合計」として検索
◆特定形式の抽出機能
年月日、住所、電話番号、会社名、郵便番号ほか(正規表現)(注)
%年月日%

2018年7月10日
%住所%

大阪府八尾市亀井町
%電話番号%

06-1234-5678
%会社名%

QWE株式会社
- (注)上記例の「%~%」は本ソリューション独自の記法で、内部的には通常の正規表現に変換して処理しています。例えば「%年月日%」は「¥d{4}年¥d{1,2}月¥d{1,2}日」と同じ意味です。「%~%」表記ではなく通常の正規表現も使用できます。
OCR誤変換補正のカスタマイズ
自社帳票にあわせて自動抽出処理を進化させることができます。
◆ルール:分類、類似、定型、特定形式
- 分類ルール:数字、英語、記号、固定フォーム、金額、年月日
- 類似ルール:御中(様、殿)、合計(金額計、合計金額)
- 定型ルール:検索ワードの各パラメータ初期値
- 特定ルール:年月日、電話番号、郵便番号、住所、会社名ほか(正規表現)
◆その他補正抽出機能
- 固定出力ワード:帳票毎に決まったワードをCSV出力することができます
(例)XX会社の発注書を処理した場合、CSV出力に固定出力ワード「XX会社」を必ず含める、といったことができます。
- マスター変換 :抽出したワードからマスター参照させて関連ワードをCSV出力することができます
(例)顧客マスターに「顧客コード」と「顧客名」の情報がある場合、「123」などの顧客コードを抽出し、「ABC商事」などの顧客名に変換できます。

特長機能:運用が簡単
自動処理フォルダ
特定フォルダにデータを保存するだけで自動処理します。

◆連携ツール: 自動処理フォルダを監視して、一連の処理を実行/モニタリングできます

◆確認ツール: 帳票イメージを見ながら抽出結果を確認/修正できます

帳票種別の自動認識
自動帳票認識により、様々な書類を同時に処理できます。

抽出結果はCSVファイルに出力
- CSVファイル名を抽出データから生成することもできます。
(例)発注書の場合、抽出データの発注No.「2018060012」と顧客名「ABC商事」から「発注書2018060012_ABC商事.csv」などの名前のCSVファイルを出力できます。


業務システムやRPAツールなど、他のシステムと連携できます(注)。
- (例)WinActor®(WinActor®はNTTアドバンステクノロジ株式会社の登録商標です。)

WinActor(ウィンアクター)RPAソリューション 紹介ページへ
本システム標準OCRツール
- OCR未処理のPDFイメージデータや画像データが入力された場合、本システム標準OCRツールでサーチャブルPDFデータを生成します(自動判定)。
- 標準OCRツール: ABBYY FineReader Engine(ABBYY社製)
- スキャンした紙文書、PDF、画像ファイルなどから文字やバーコードを読み取り、文字検索可能なPDFファイル(サーチャブルPDFデータ)を生成
- 日本語/英語 含む132言語のOCRに対応、英数手書きOCR(オプション)に対応
- 年間数千社がABBYYの技術を使用して、93億ページ(注)以上の文書と帳票を処理している
- (注)ABBYY社の社内データに基づく値
OCR処理ツールを選択可能
本システム標準OCRツールを使う以外に、他のツールで事前にOCR処理したPDFデータをOCRソリューションで処理することもできます。
◆他のツールでOCR処理したPDFデータの例
- 複合機等でスキャンすると同時に内蔵OCR機能で生成したサーチャブルPDFデータ
- スキャンした後に他のOCRツールで生成したサーチャブルPDFデータ
(例)標準OCRでは対応してない、英数以外の手書きに対応したOCRツールを使う、等

- CADツール等で生成したPDFデータ(テキストオブジェクト)

構成図
ダウンロード
お問い合わせ・資料請求
各種お問い合わせをメールにて承ります。