PDFや画像内の文字を取り出したいときに利用するOCRサービス。請求書や発注書では専用のサービスを利用するほうが良いですが、文書などを簡易的にデータ化したい場合はオンラインサービスでも事足りる場合があります。ただ、オンラインサービスの場合は、海外で制作されたものも多く日本語の変換はにがてなものもあるようです。今回は、オンラインで利用できるOCRサービスをテスト文章の読み取りも含めて紹介します。
おすすめのオンラインOCRサービス5選
ここからは、無料で利用できるオンラインOCRサービスを5つ紹介します。今回テストした文章は下記です。
あえて古い表記を使用した小説を使用し、データは画像のPNGファイルに変換しています。
- EzOCR
- ONLINE OCR
- LightPDF
- Convertio
- PDF24 Tools
各サービスの概要と読み取り結果を説明していきます。
EzOC
無料の場合は1日10枚までの読み取りが可能で、PDFや画像ファイルに対応しています。またアカウント作成も不要ですぐに使用できます。文書1枚を読み取るサービスのほか、範囲OCRや表形式のPDFにも対応。表形式のファイルは、読み取り後にExcelかCSVにしてダウンロードできます。
OCR機能は、Google Cloud Vision APIとTesseractなどを複合して使用しているため、精度は高めと言えそうです。OCRサービス以外にもPDFの結合や分割、Wordへの変換も行えます。
読み取り結果
出力されたテキストをWordにコピペしたため、校正機能が働いています。結果について、難読漢字の読み取りや変なところが濁点になったものの読めない程度ではありません。メールで添付された画像やカンタンな紙文書をデータ化したいといった点では、多少修正を加えれば問題なく使えるのではないでしょうか。
大量の文書を一度にデータ化したい場合は、有料プランも検討してみたいところです。
ONLINE OCR
ONLINE OCRもユーザー登録が不要で、PDFや画像の読み取りが可能。ユーザー登録を行うと変換後のデータは1か月保存されるため、再度読み取りをして無料枠を消費することがありません。認識言語は、英語や中国語、韓国語も含め46か国語をサポートしています。(2023年1月時点)
使い方もシンプルで読み取りたいファイルをアップロードし、言語と出力フォーマットを選択して変換ボタンを押すだけ。出力フォーマットはWordやPDF、テキストの選択が可能です。サイトではPDFからWord、Excel、画像に変換することもできます。スマホからの利用にも対応し、さまざまなシチュエーションで利用しやすいサイトです。
読み取り結果
「小」の字がことごとく誤変換されていて「なぜ…」と思った結果ですが、読めないという程度ではありません。ほかにも小さい「っ」の促音が一部変換されていないところも見受けられます。英語ネイティブだと促音がないからでしょうか。とは言え、1時間に15ページ、1ファイル10ページが無料で利用できるのは魅力です。それ以上のファイルを変換したい場合は、有料プランをおススメします。
LightPDF
「PDFをより簡単に」をコンセプトにPDFの編集をオンライン上で行えるサービス。さまざまなサービスを運営している中に、OCR機能も提供しています。無料版では1日のファイル数が限られる。Webからの利用のほかに、有料版ではデスクトップでの使用もできるため、通信状況に左右されず安定した利用が可能です。ファイルサイズが無制限であるのはとてもありがたい。ログインすることでファイルのダウンロードができます。また、開発者向けにAPIの提供も行っているので、興味がある方は連絡を取ってみても良いかもしれません。
読み取り結果
「噺」などの旧字体でわずかに誤変換がある程度で、ほぼ完ぺきに近い状態の読み取り精度です。画像が変なところで折り返されているので、その前後で少し誤変換が起こりやすい。ダウンロード時には、テキスト形式のほかWordへの変換もできるため、紙書類をデータ化したいという方に向いています。個人的にExcelの表を画像化したファイルを読み取ってみたところ、結合セルもそのままの状態で文字部分はテキストに変換されてExcelに落とすことができました。なかなか高精度なツールです。
Convertio
OCR機能のほかにオーディオファイルや動画ファイルの形式を変換できる多機能Webツールです。日本語のほかに英語や中国語、フランス語などの主要言語に対応しています。無料枠には最大認識ページは10ページ、最大容量100MB、ファイル数は24時間に10ファイルまでと制限されています。有料版の場合は、読み取りページ数をあらかじめ購入するという形をとっており、1000ページでは約5,000円です。※支払金額はレートによります。
読み取り結果
長音の「ー」が漢数字になっているなどの誤変換などはあるものの、読み取り精度は高いと言えそう。「べ」と「ぺ」といった濁音と半濁音の誤変換は一部のみ。濁音や半濁音、似た文字の誤変換は文字の大きさによって回避できそうです。複数ページの書類を試していないので、なんとも言えませんが簡易的な文書を数枚ほどデータ化したいのであれば問題ないのではないでしょうか。
PDF24 Tools
PDF編集のWebツールのひとつとして、OCR機能を公開しています。無料の上、無制限で利用が可能です。さまざまな形式のファイルからPDFに変換したり、逆にPDFを各ファイルに変換したりできます。各ファイルに変換する場合、PDF内の文字がデータ化されていないと画像のまま出力されるので注意が必要です。通信速度やオンライン上にデータを上げるのが不安な方は、デスクトップ用ツールが用意されているので、そちらを利用すると良いでしょう。
読み取り結果
日本語が2種類選択できるのですが、縦書きの場合は「Japanese(vertical)」を選択します。今回は横書きのため「Japanese」を選択。ぱっと見はわかりませんが、読点や句読点の位置が逆になっていたり、ところどころ違う漢字に変換していたりと誤変換が目立ちます。変換完了時に「○○語が認識されました」とあったので、単語ごとに処理されているのでしょう。PDFをいろいろ編集できるのは魅力ですが、OCRとしてはもう少し精度を上げてもらいたいかもしれません。
本格的にビジネスに導入したい場合はPCアプリ
社内文書や大量のデータを扱う場合は、やはりPC用アプリをおススメします。特にOCRを初めて検討する方や少ない予算で始めたい方はAI JIMY Paperbotが◎手書き文字にも対応できるAI OCRを使用しているうえに、出力結果を別ファイルやソフトへ自動入力ができるRPAも実装しています。無料トライアルも行っているので、気になる方は試してみてはいかがでしょうか。
まとめ
今回はオンラインで利用できるOCRのWebツールを紹介しました。手書きではなく活字のテストでしたが、面白い結果が出たのではないでしょうか。ほとんどが海外製なので、日本語が怪しいかと思いましたが使えないというほどでもありません。また、安価なサービスも多いので、個人で利用するには良いサービスです。オンライン上に書類をアップロードするので、本当にデータを保持していないかはわかりかねるうえ、当サイトでも保証はしかねます。一応、サイトに破棄しているなどの内容は書いてありますが、セキュリティ面が心配な方は運営者に問い合わせてみるのもよいでしょう。