
PDFや画像中の文字をPCなどでデータ活用したいと思うことはないでしょうか。PDFも文字がPCでコピーできるものとできないものが存在します。そういった場合に必要なのが、OCR(Optical Character Reader/光学的文字認識)です。しかし、手書きの書類も存在するとOCRの精度が気になるところ。この記事ではスキャナーに付属している簡易OCRとAI OCRのデータ化について、実際に比較してみました。ぜひ参考にしてみてください。
OCRとAI OCRの違いは何?
画像中の文字を抜き出してデータ化するには、OCRが必要なことはご存じの方が多いでしょう。OCRは、あらかじめ登録されている文字と読み取った文字の形を比較してデータ化します。しかし日本語の場合は、多くの文字があるので文章をデータ化するのが難しく、これまでのOCRでは漢字を含むと途端に読取り精度が下がってしまいました。このように、日本語のOCRではデータ化した後も打ち直しが必要になり、かえって手間になっていたようです。
昨今では、AI OCRが利用され始め読取り精度がグンと高くなりました。AI OCRは、文字の形だけでなく前後の単語からどのように利用されているかも学習して判断できるようになっています。そのため、手書き文字にもかなりの精度で対応しているようです。
テストに使用したアプリを紹介
言葉で「手書きにも対応!」と言われても、どの程度の精度なのかとお思いでしょう。今回は10年ほど前に発売された家庭用インクジェット複合プリンターのスキャナー機能と無料で利用できるAI OCRを使用して、各OCRの読取り精度を検証してみます。利用したアプリやサイトについては、下記のとおりです。
- Cannon My Image GardenのOCR
- OneDrive
- LINE CLOVA ※オンライン簡易利用版
- GoogleDrive
Cannon My Image Garden

家庭用複合プリンターを購入すると利用できる「My Image Garden」。パッケージには新聞や雑誌記事などの文書もテキスト化できるなどと書いてあったが、あくまで画像取り込みが目的だったのであまり使用したことがなかった。PDFにすることで編集が可能。ソフトウェアはまだアップデートしていて、Windows11にも対応している。
OneDrive

Microsoftが提供するクラウドストレージですが、OCR機能も備えていて画像やPDFファイル内の文字を認識することができます。OneDriveに画像を保存後、Wordの編集機能で開くと文字の編集が行えます。無料で利用できて各デバイスからのアクセスも可能なので、外出先でスマホから文書を検索するのにも使い勝手がいいです。
LINE CLOVA

LINE株式会社はAI事業にも力を入れていて、そのひとつにAI OCRがあります。パッケージとして利用できるほか、APIの提供も行っているので、ご自身で利用したりアプリ開発も行えます。読み取り精度は世界最高クラス。ここで紹介するのは、Web上で認識できる簡易版です。本社サイトのため、韓国語となっていますが日本語の認識も可能となっています。
GoogleDrive

GoogleDriveも個人が無料で使用できるクラウドストレージです。利用されている方も多いかと思いますが、ストレージのほかマップやEメール、officeソフトに変わるアプリケーションなどさまざまなサービスをクラウド上で提供しています。OneDriveと同様にGoogleDriveに保存したPDFや画像をドキュメントから開くとファイル内の文字を認識して、テキスト化してくれます。
実際にOCRとAI OCRの読取り精度を比較!
テストにあたり、使用する原稿を「活字」「手書き(ていねい目)」「手書き(ややなぐり書き)」の3種類用意しました。それぞれのアプリでデータ化した結果を見ていきましょう。
1.活字の読取りテスト
活字には、あえて旧漢字の入った小説の一部を利用しました。

原稿は画像化しているので、PC上で文字の選択やコピペはできません。以下、OCRを通した結果です。




※読み取り後のデータは、一部Wordを使用して開いているため校正機能が働いています。
古いとはいえ、家庭用複合機にバンドルされているOCRではデータ化をしてもかなりの修正が必要のようです。一部、昔流行ったギャル文字のような変換も見受けられます。活字でもこのような状況では、これまで文字のデータ化をする場合は、人が打ったほうが早いと言われてもうなずけます。
一方OneDrive、LINE CLOVA、Google DriveはAI OCRを使用しているだけあって、相当な精度です。OneDriveのところどころ濁点「゛」が抜けている個所は気になりますが、文章として読めなくはありません。LINE CLOVAとGoogleDriveに至っては、「カンダタ」という主人公の名前を除いてほぼ完璧。Wordに転記すれば画像のように校正機能が働くので、修正もそこまで大変ではなさそうです。
2.手書きの読取りテスト
手書きの読取りについては、ややていねいに書いたものと読める程度の殴り書きを用意しました。

家庭用複合機のOCRでは手書きはほぼ読めないと思いますが、比較のためテストしてみます。




家庭用複合機は、最初の方の文章がほぼ読めず「そら、」の部分がかろうじて読める程度です。また、AI OCRについても興味深い結果が出ました。私のクセで少し文章が斜め右上に向かっていたため、OneDriveでは少し読取り精度が落ちたようです。しかし、LINE CLOVAとGoogleDriveについては、こちらも完璧に読めていると言っていいのではないでしょうか。AI OCRには、傾き補正もあるのでそれが適用された形となっているようです。
3.なぐり書きの読取りテスト

2.と同じ文章にを使用します。思ったほどなぐり書きができないのですが、崩した文字なども入れて読み取らせてみました。




家庭用複合機はもはや何が書いてあるかわからないレベルです…。基本的に、手書きに対応しているわけではないので限界でしょう。OneDriveはややていねいに書かれた手書きも怪しかったのですが、やはり手書きは向いていないようです。LINE CLOVAとGoogleDriveも間違いはありますが、全く読めないというわけではありません。何より、GoogleDriveが最後の1文を間違わずに変換できたことがすごいと思います。この1文をあらかじめ学習していたかもしれません。
AI OCRを業務効率化に利用する場合はAI JIMY Paperbotがおすすめ!
業務効率化にOCRを初めて検討する方や少ない予算で始めたい方はAI JIMY Paperbotが◎手書き文字にも対応できるAI OCRを使用しているうえに、出力結果を別ファイルやソフトへ自動入力ができるRPAも実装しています。無料トライアルを行っているので、気になる方は試してみてはいかがでしょうか。

まとめ
AI OCRの手書き文字の読取り精度について、実際にテストを行った結果を紹介しました。今回は一般向けに公開されている無料ツールばかりを使用しているため、専用ツールなどを使用した場合は精度が変わっているかもしれません。あくまで、ひとつの例として見ていただければ幸いです。有料アプリなどサポートが付いている場合は、どうすれば読み取りやすくなるかなどのアドバイスもしてもらえるかもしれません。これからビジネスや企業で導入してみたいという方は、一度トライアルなどで試してみるのがおススメです。