文書の電子化やデータ入力作業で時間を無駄に感じていませんか?そんな日常の面倒を解消するために、最先端のAI技術「ChatGPT」と「OCR」が助けになるかもしれません。この記事では、先日パワーアップしたChatGPT-4oのOCR機能にフォーカスし、無料で画像からテキストを抽出して活用する方法を解説しています。AIを利用して業務効率を上げたい、ChatGPTに興味があるという方は、ぜひこの記事を参考にしてください。
ChatGPTの進化とその機能
ChatGPTについては、名前はなんとなく知っているという方も多いでしょう。ChatGPTは、OpenAIが開発した驚くほど人間らしいテキストを生成するAIです。このセクションでは、ChatGPTの基本的な機能と内容を簡単にご紹介します。
ChatGPTとは
ChatGPTは、OpenAIによって開発された先進的な自然言語処理モデルです。このAIは、人間のように自然で流暢なテキストを生成する能力を持っていて、様々な言語タスクに対応できます。GPT(Generative Pre-trained Transformer)のバージョンが進化するごとに、理解力と文脈把握の精度が向上し、より複雑なユーザーの要求に応えることが可能になっています。
ChatGPTの基本機能とその進化について
ChatGPTの最初のバージョンから先日発表されたGPT-4oまで、このモデルは常に人間の言語を理解し、適切なレスポンスを生成することに重点を置いています。初期のバージョンは比較的シンプルなテキスト生成に使われていましたが、今日ではより高度な推論や複数の言語にわたる知識の応用が可能です。また、テキストだけでなく、音声や画像のマルチモーダル※1にも対応し、ほぼリアルタイムに応答できるようになっています。
※1 複数の手段や方法を組み合わせて情報を伝達することです。例えば、音声、テキスト、画像などを使ってコミュニケーションを行う方法を指します。
ChatGPTのOCR機能を試してみよう
先日発表されたChatGPT-4oは、一部機能制限はあるものの無料で利用できます。これまで有料会員のみで利用できた画像やPDFの解析が可能になり、さらに利用範囲が広がりました。その中でも画像から文字を抽出するOCR機能について、フォーカスします。
OCR機能とは
OCR(Optical Character Recognition)技術は、紙面やデジタル画像内の文字情報を識別し、編集しやすいテキスト形式に変える技術です。この技術は、入力作業や文書管理、デジタル可視性の改善など、多くの業務で欠かせないものとなっています。
ChatGPTで文字をデータ化する手順
無料版のChatGPTで画像から文字データを抽出します。今回は、下記の画像を使ってみます。
まずは、ChatGPTにログインします。ChatGPTは、Googleアカウントで簡単に登録可能です。登録してもいきなり有料版の会員にはならないので、安心して利用してください。
ChatGPTのメイン画像がこちらです。表示されたら、そのまま日本語で何をしたいか伝えれば、OKです。
今回は、上の請求書の内容を読んでもらうので「メッセージを送信する」の上にファイルをドラッグアンドドロップし、メッセージを入れます。テキストを書き出してもらうと以下のようになります。
画像内に文字として読めるものは、すべて書き出されているのがわかります。また、PCなどで作成した活字の文字は、ほぼ読取りができています。従来のOCRと同様に商品名や地名などの固有名詞は、間違いが出てくるようなので、もし業務などへの利用を考えている場合は、チェックが必要でしょう。
今回は、「桜橋八千代ビル」が「桜橋/ハイテイビル」と変換されていました。これくらいなら許容範囲と言えそうです。
ChatGPTでデータ化した文字を加工して利用
文字情報すべてを抽出し、コピペ利用しても良いですが、ここからはChatGPT上で命令を工夫して加工してみましょう。
請求内容のみを抽出
画像内容を読み取ったうえで、「請求内容のみを抽出」と命令すると以下のように表示されます。
さらにExcelに張り付けられるように加工してみましょう。
ちゃんと表形式で表示してくれました。実際にExcelに張り付けてみます。
書式などもそのまま張り付けると項目ごとにセルが分かれ、枠線まで入れられているのがわかります。また、数字も数値としてExcel上に張り付けられました。数枚の請求書や帳票などは、ChatGPTを使用してデータ化しても良いかもしれません。
さらに命令を工夫した様々なデータ加工
ChatGPTのOCRで読み取ったデータの加工は、命令しだいです。今回の画像データを使って、いろいろな加工を試してみました。
支払先と支払日、合計金額を抽出
支払先や支払日、合計金額を的確にわずか数秒で表示してくれました。住所や電話番号などが不要な場合は、それもテキストで命令すればOKです。
利用日の指定と利用金額の計算
一部の利用日を抽出し、その合計金額を出してもらいました。以前のChatGPT無料版では、数字に弱く簡単な計算を間違ってしまうことが多かったので、信用できない回答が多かったです。まだ、複雑な計算などは試していませんが、これくらいのレベルなら大丈夫そうです。項目が多い場合は、計算までさせずに明細だけ抽出し、Excel上で改めて計算させても良さそうです。
OCRをもっと効率的に業務へ使いたい方はAI JIMY Paperbotがおすすめ!
AI JIMY Paperbotを利用するメリット
OCRに生成AIとRPAを搭載 一つのツールでデータ入力作業を完結
画像の取り込みから取引先ごとの仕分け、手書き文字の認識、テキストデータの出力、業務システムへのデータ入力まで、一連の作業をAI JIMY Paperbotひとつで自動化できます。
無料で誰でもカンタンに使用可能
AI JIMY Paperbotは特別な技術知識は不要で、マウスだけの直感的な操作が可能です。RPAツールとの連携や専門知識が必要なAPIなどの開発作業は必要ありません。無料で利用開始できますので、カンタンに試すことができます。
自動でファイル名を変換できるリネーム機能
リアルタイム処理を行い、任意で電子帳簿保存法の改正にも対応したファイル名に自動で変換可能です。
AI類似変換で社内のマスタと連携し、文字認識が向上
日本語の認識は、手書きも含めてかなり高い精度で変換できます。間違いやすい商品名などの固有名詞は、あらかじめAI JIMY Paperbotに登録しておくことでさらに認識率が向上します。
多様な業務で活用
さまざまな業務で使用が可能です。FAXの受注入力、請求書の集計、手書きアンケートや申込書のデータ入力、作業日報のデジタルデータ化など多岐にわたる業務プロセスをサポートします。
まとめ
今回はChatGPT-4oのOCR機能にフォーカスしてみました。ChatGPTには、このほかにも様々な機能があり無料版でもいろいろ試してみると良いかもしれません。有料版では現在、よく命令する内容を記録して活用したり、特殊な内容はあらかじめ覚えさせてから利用したりできる「MyGPT」という機能があります。活用したいボリュームによっては、有料への登録やその内容に特化したツールを検討するのも良いかもしれません。