Google GeminiでOCRを利用!実際に請求書を読み取ってみた

Google GeminiでOCRを利用!実際に請求書を読み取ってみた

請求書や領収書、契約書など、紙の書類をデジタル化して業務効率を図りたい。そんなニーズに対して、OCR(光学文字認識)技術は欠かせない存在となっています。近年では生成AIの進化により、OCRのその先の「読み取った情報をどう使うか」という文脈処理まで自動で行えるようになってきました。

Googleが提供する生成AI「Gemini」は、そんなニーズに応えるツールのひとつです。実はこのGemini、OCR機能も搭載されており、PDFや画像からテキストを読み取ることができるんです。今回は実際に請求書を使って、Google GeminiでOCRを試し、その活用方法や注意点、他のGoogleアプリとの連携について詳しく紹介します。

目次

Google Geminiとは?

Google Geminiは、Googleが提供する生成AIであり、従来の「Bard」を置き換える形で登場しました。大規模言語モデル(LLM)をベースにしており、文章生成や要約、翻訳、コード作成などに対応しています。

特に注目したいのは、Geminiが画像やPDFファイルを読み取り、その内容を認識・解釈できるマルチモーダルな能力を持っている点です。つまり、「OCR(文字認識)+意味の理解」が可能であり、ただ文字を抜き出すだけでなく、文脈に応じた整理や要約、分類まで一括で行えるのです。

OCR単体では難しかった「情報の整理」や「業務に使えるデータへの変換」も、Geminiなら自然言語での指示だけで実現できます。

▶本格導入もスムーズ!生成AI・AI OCR・RPAを14日間無料で使える【AI JIMYはこちら】

GeminiのOCR機能を試してみよう

Geminiには、無料版のGeminiと有料版のGemini Advancedがあります。有料版のGemini Advancedでは、より高性能なAIモデルの利用、画像認識、GmailやGoogleドキュメントとの連携、大容量ファイルのアップロード、高度な情報分析機能などが利用できますが、今回は一般的に使われている無料版のGeminiを使ってみます。

では実際に、以下のような流れでGoogle GeminiのOCR機能を試してみましょう。

① Google Geminiのページを開く

Google Geminiは、Googleアカウントさえあれば、特別なソフトをインストールすることなく、すぐに使い始めることができる生成AIサービスです。GmailやGoogleドライブを利用している方なら、すでにアカウントをお持ちのはず。面倒な手続きもなく、ブラウザからアクセスするだけで利用可能です。

実際に試してみたい場合は、以下の公式ページからアクセスしてみてください。
👉 https://gemini.google.com/

シンプルなチャット形式で質問やファイルのアップロードができるため、誰でも簡単に操作できます。初めてでも直感的に使えるので、生成AIやOCRに詳しくない方でも安心して利用できます。

② 請求書のPDFを用意

今回は、こちらの架空の請求書を使います。文字が比較的はっきりしていれば、スキャンでもスマホ写真でも問題ありません。

③ ファイルをGeminiにドラッグ&ドロップ

Geminiのチャット欄にPDFをそのままドラッグ&ドロップするだけでアップロードできます。すると、GeminiのUI部に画像が埋め込まれます。

④ 指示を入力して処理を開始

この状態で、下記のプロンプトを入力してみてください。

添付の画像からテキストをすべて抽出してください。

上記プロンプトを送信すると、Geminiが考えて書きようなコメントを返してくれます。
これは、画像ファイルの中からテキスト情報を抽出して結果です。

530-0001
大阪市 北区 梅田2丁目
桜橋八千代ビル

シー・システム株式会社
システム開発事業部 御中

1234567890123456 1 0001

支払日
お支払金額合計

2022年11月30日
22,756 円

ご利用
年月日

ご利用店名

1234-5678-9012-3456

9/1 シーレンタリース梅田店
9/15 シーレンタリース梅田店
9/30 シーレンタリース梅田店

お支払合計

1/ 1ページ
請求明細書
2022 年 12 月 15 日発行

いつもご利用いただきまして誠にありがとうございます。
今月分のご利用明細をご案内申し上げます。

ABC1234567

株式会社 シーレンタリース
530-0001
大阪市 北区 梅田2丁目
桜橋八千代ビル
TEL 06-6136-5960

ご利用金額(円)

ビジネスメンバーカード

11 000 レンタカー
5 500 レンタカー
6 256 レンタカー

22,756

検印

確認印

シーレンタリース

このように、画像からテキスト情報を高い精度で抽出できていることがわかります。これは、AIが前後の文脈を理解し補正/補完を行っているためです。よって、商品名や固有名詞などは誤字(正しく変換されない)となることもあるので、注意が必要です。

一方で精度が高すぎるが故に、利用金額の箇所で3桁区切りの線をそのまま読み込んでします、数値が分かれてしまっています。

Geminiでデータ化した文字を加工して利用

文字情報すべてを抽出し、コピペ利用しても良いですが、ここからはGemini上でプロンプトを工夫して集計等のデータ加工してみましょう。

請求内容のみを抽出

「請求内容のみを抽出」と指示を出すと、下記のように出力されます。

Googleスプレッドシートにエクスポートすることで、下記のように綺麗に出力されました。

Geminiの出力から直接エクセルに変換することはできませんので、一度Googleスプレッドシートを経由することで、エクセル化することもできます。

さらに命令を工夫した様々なデータ加工

GeminiのOCRで読み取ったデータの加工は、命令しだいです。今回の画像データを使って、いろいろな加工を試してみました。

支払先と支払日、合計金額を抽出

「支払先と支払日、合計金額を抽出」とすると、読み込んだ請求書の要約を出力してくれます。

支払先名までしか出力されていませんが、住所や電話番号が必要な場合は、その旨プロンプトに指示すればOKです。

利用日の指定と利用金額の計算

「利用日が9/15以降の明細を抽出し、その合計を教えて」とプロンプトで指示した結果です。

「利用日」に条件を当ててフィルタを掛けることもできます。上記の例では、「9/15以降」という条件を追加して明細を抽出し、その合計値を計算してもらっています。項目が多い場合は、計算までさせずに明細だけ抽出し、GoogleスプレッドシートやExcel上で改めて計算させた方が良いかもしれません。

OCR利用時の注意点

Google GeminiのOCR機能は非常に高性能で、請求書や書類から文字情報を正確に読み取る力があります。ただし、実務で使う際には 「100%完璧に読み取れるわけではない」 という前提も忘れてはいけません。
特に業務用途では、読み取り精度がそのまま金額や納期の判断に直結するケースもあるため、以下のような注意点を事前に把握しておくことが重要です。

1. フォントやレイアウトの影響

手書きの書類や、文字がつぶれていたり傾いていたりする書類では、認識精度が落ちます。明朝体やゴシック体など、読み取りやすいフォントを使用していると精度が高まります。

2. 表形式のデータの扱い

複雑なテーブルや罫線のある形式では、読み取り位置がずれることがあります。とくに複数列にまたがるセルや、縦書きには非対応のことがあるため注意が必要です。

3. 機密情報の扱い

Geminiにアップロードしたファイルは、Googleのサーバ上で処理されるため、社外秘や個人情報を含むファイルは十分な注意が必要です。社内ガイドラインや情報セキュリティポリシーを確認したうえで利用しましょう。

Googleの他アプリケーションとの連携

Geminiの便利さは、単に文字を読み取る「OCRツール」としてだけにとどまりません。その真価が発揮されるのは、Googleが提供する他のサービスとのスムーズな連携にあります。

たとえば、スプレッドシートやGmail、Google Driveといったおなじみのアプリケーションと組み合わせることで、「読み取ったデータを整理・共有・自動化する」といった一歩進んだ活用が可能になります。

つまり、Geminiは“単独で使って完結するAI”ではなく、Googleのエコシステムと連動することで、より実用的で業務に直結するツールになるのです。以下では、その具体的な連携例を紹介します。

Google スプレッドシートとの連携

Geminiで抽出した請求書情報を、スプレッドシートに貼り付けて管理することで、請求管理台帳が自動化できます。さらに、Google Apps Scriptと組み合わせれば、以下のようなことも可能です。

  • 請求書の金額が一定額を超えた場合、アラートを送信
  • 支払期日に近づいたら通知
  • データを集計してグラフ表示

Google Driveとの連携

Drive上に請求書フォルダを作成し、Geminiで解析した内容をメモにして添付したり、ファイル名に要約内容を含めるといった管理も可能です。

Gmailとの連携

メールに添付された請求書をGeminiで解析し、本文に要約を添えて返信、といった使い方も便利です。Google Workspaceと連携することで、業務効率化が一気に加速します。

  • 参考記事と同様の流れで(言い回しなどは変更ください)
  • 利用時の注意点も含む
  • Googleの他アプリケーションとの連携について など

OCRをもっと効率的に業務へ使いたい方はAI JIMY Paperbotがおすすめ!

AI JIMY Paperbot 公式ページより

AI JIMY Paperbotを利用するメリット

OCRに生成AIとRPAを搭載 一つのツールでデータ入力作業を完結

画像の取り込みから取引先ごとの仕分け、手書き文字の認識、テキストデータの出力、業務システムへのデータ入力まで、一連の作業をAI JIMY Paperbotひとつで自動化できます。

無料で誰でもカンタンに使用可能

AI JIMY Paperbotは特別な技術知識は不要で、マウスだけの直感的な操作が可能です。RPAツールとの連携や専門知識が必要なAPIなどの開発作業は必要ありません。無料で利用開始できますので、カンタンに試すことができます。

自動でファイル名を変換できるリネーム機能

リアルタイム処理を行い、任意で電子帳簿保存法の改正にも対応したファイル名に自動で変換可能です。

AI類似変換で社内のマスタと連携し、文字認識が向上

日本語の認識は、手書きも含めてかなり高い精度で変換できます。間違いやすい商品名などの固有名詞は、あらかじめAI JIMY Paperbotに登録しておくことでさらに認識率が向上します。

多様な業務で活用

さまざまな業務で使用が可能です。FAXの受注入力、請求書の集計、手書きアンケートや申込書のデータ入力、作業日報のデジタルデータ化など多岐にわたる業務プロセスをサポートします。

まとめ

Google Geminiは、文字を読み取るだけでなく、その内容を整理・分析し、業務に活かせる形で提示してくれる“次世代のOCRアシスタント”です。請求書の読み取りも、ファイルをアップロードして指示を出すだけで必要な情報が抽出でき、想像以上にスムーズでした。

注意点を踏まえつつ、Google Workspaceと組み合わせて活用すれば、請求業務の自動化も現実的に。生成AIを“会話相手”にとどめず、日常業務の頼れる相棒として取り入れてみてはいかがでしょうか。

AI JIMY Converter
Google GeminiでOCRを利用!実際に請求書を読み取ってみた

この記事が気に入ったら
いいね または フォローしてね!

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!
目次