
請求書や領収書、契約書など、紙の書類をデジタル化して業務効率を図りたい。そんなニーズに対して、OCR(光学文字認識)技術は欠かせない存在となっています。近年では生成AIの進化により、OCRのその先の「読み取った情報をどう使うか」という文脈処理まで自動で行えるようになってきました。
Googleが提供する生成AI「Gemini」は、そんなニーズに応えるツールのひとつです。実はこのGemini、OCR機能も搭載されており、PDFや画像からテキストを読み取ることができるんです。今回は実際に請求書を使って、Google GeminiでOCRを試し、その活用方法や注意点、他のGoogleアプリとの連携について詳しく紹介します。
Google Geminiとは?
Google Geminiは、Googleが提供する生成AIであり、従来の「Bard」を置き換える形で登場しました。大規模言語モデル(LLM)をベースにしており、文章生成や要約、翻訳、コード作成などに対応しています。
特に注目したいのは、Geminiが画像やPDFファイルを読み取り、その内容を認識・解釈できるマルチモーダルな能力を持っている点です。つまり、「OCR(文字認識)+意味の理解」が可能であり、ただ文字を抜き出すだけでなく、文脈に応じた整理や要約、分類まで一括で行えるのです。
OCR単体では難しかった「情報の整理」や「業務に使えるデータへの変換」も、Geminiなら自然言語での指示だけで実現できます。
GeminiのOCR機能を試してみよう
Geminiには、無料版のGeminiと有料版のGemini Advancedがあります。有料版のGemini Advancedでは、より高性能なAIモデルの利用、画像認識、GmailやGoogleドキュメントとの連携、大容量ファイルのアップロード、高度な情報分析機能などが利用できますが、今回は一般的に使われている無料版のGeminiを使ってみます。
では実際に、以下のような流れでGoogle GeminiのOCR機能を試してみましょう。
① Google Geminiのページを開く
Google Geminiは、Googleアカウントさえあれば、特別なソフトをインストールすることなく、すぐに使い始めることができる生成AIサービスです。GmailやGoogleドライブを利用している方なら、すでにアカウントをお持ちのはず。面倒な手続きもなく、ブラウザからアクセスするだけで利用可能です。
実際に試してみたい場合は、以下の公式ページからアクセスしてみてください。
👉 https://gemini.google.com/
シンプルなチャット形式で質問やファイルのアップロードができるため、誰でも簡単に操作できます。初めてでも直感的に使えるので、生成AIやOCRに詳しくない方でも安心して利用できます。
② 請求書のPDFを用意
今回は、こちらの架空の請求書を使います。文字が比較的はっきりしていれば、スキャンでもスマホ写真でも問題ありません。

③ ファイルをGeminiにドラッグ&ドロップ
Geminiのチャット欄にPDFをそのままドラッグ&ドロップするだけでアップロードできます。すると、GeminiのUI部に画像が埋め込まれます。

④ 指示を入力して処理を開始
この状態で、下記のプロンプトを入力してみてください。
添付の画像からテキストをすべて抽出してください。
上記プロンプトを送信すると、Geminiが考えて書きようなコメントを返してくれます。
これは、画像ファイルの中からテキスト情報を抽出して結果です。
530-0001
大阪市 北区 梅田2丁目
桜橋八千代ビルシー・システム株式会社
システム開発事業部 御中1234567890123456 1 0001
支払日
お支払金額合計2022年11月30日
22,756 円ご利用
年月日ご利用店名
1234-5678-9012-3456
9/1 シーレンタリース梅田店
9/15 シーレンタリース梅田店
9/30 シーレンタリース梅田店お支払合計
1/ 1ページ
請求明細書
2022 年 12 月 15 日発行いつもご利用いただきまして誠にありがとうございます。
今月分のご利用明細をご案内申し上げます。ABC1234567
株式会社 シーレンタリース
530-0001
大阪市 北区 梅田2丁目
桜橋八千代ビル
TEL 06-6136-5960ご利用金額(円)
ビジネスメンバーカード
11 000 レンタカー
5 500 レンタカー
6 256 レンタカー22,756
検印
確認印
シーレンタリース
このように、画像からテキスト情報を高い精度で抽出できていることがわかります。これは、AIが前後の文脈を理解し補正/補完を行っているためです。よって、商品名や固有名詞などは誤字(正しく変換されない)となることもあるので、注意が必要です。
一方で精度が高すぎるが故に、利用金額の箇所で3桁区切りの線をそのまま読み込んでします、数値が分かれてしまっています。

Geminiでデータ化した文字を加工して利用
文字情報すべてを抽出し、コピペ利用しても良いですが、ここからはGemini上でプロンプトを工夫して集計等のデータ加工してみましょう。
請求内容のみを抽出
「請求内容のみを抽出」と指示を出すと、下記のように出力されます。

Googleスプレッドシートにエクスポートすることで、下記のように綺麗に出力されました。

Geminiの出力から直接エクセルに変換することはできませんので、一度Googleスプレッドシートを経由することで、エクセル化することもできます。

さらに命令を工夫した様々なデータ加工
GeminiのOCRで読み取ったデータの加工は、命令しだいです。今回の画像データを使って、いろいろな加工を試してみました。
支払先と支払日、合計金額を抽出
「支払先と支払日、合計金額を抽出」とすると、読み込んだ請求書の要約を出力してくれます。

支払先名までしか出力されていませんが、住所や電話番号が必要な場合は、その旨プロンプトに指示すればOKです。
利用日の指定と利用金額の計算
「利用日が9/15以降の明細を抽出し、その合計を教えて」とプロンプトで指示した結果です。

「利用日」に条件を当ててフィルタを掛けることもできます。上記の例では、「9/15以降」という条件を追加して明細を抽出し、その合計値を計算してもらっています。項目が多い場合は、計算までさせずに明細だけ抽出し、GoogleスプレッドシートやExcel上で改めて計算させた方が良いかもしれません。

OCR利用時の注意点
Google GeminiのOCR機能は非常に高性能で、請求書や書類から文字情報を正確に読み取る力があります。ただし、実務で使う際には 「100%完璧に読み取れるわけではない」 という前提も忘れてはいけません。
特に業務用途では、読み取り精度がそのまま金額や納期の判断に直結するケースもあるため、以下のような注意点を事前に把握しておくことが重要です。
1. フォントやレイアウトの影響
手書きの書類や、文字がつぶれていたり傾いていたりする書類では、認識精度が落ちます。明朝体やゴシック体など、読み取りやすいフォントを使用していると精度が高まります。
2. 表形式のデータの扱い
複雑なテーブルや罫線のある形式では、読み取り位置がずれることがあります。とくに複数列にまたがるセルや、縦書きには非対応のことがあるため注意が必要です。
3. 機密情報の扱い
Geminiにアップロードしたファイルは、Googleのサーバ上で処理されるため、社外秘や個人情報を含むファイルは十分な注意が必要です。社内ガイドラインや情報セキュリティポリシーを確認したうえで利用しましょう。
Google Geminiは便利だが、業務利用には工夫が必要
Google Geminiを使えば、請求書や帳票のOCR処理を簡単に試すことができます。読み取った情報を活用すれば、業務の一部を効率化することも可能です。しかし、実際に業務へ導入するとなると、いくつかの注意点や課題が見えてきます。ここでは、GeminiのOCR性能と業務適用における実力を検証します。
GeminiによるOCR処理の強みと特徴
Google Geminiでは、PDFや画像の文字情報を抽出するOCR機能が備わっていて、請求書のような帳票から金額や日付、支払先などの情報を簡単に取り出すことができます。画像をアップロードし、プロンプトで指示するだけという手軽さは、非エンジニアでも活用しやすい大きなメリットです。
高精度ながら業務活用には限界がある
実際に業務で使おうとすると、読み取り精度や後処理における課題が顕在化します。たとえば、表形式のレイアウトが崩れて数値が正しく読み取れなかったり、複数の項目が混在して項目名と数値の対応が不明確になるケースがあります。また、抽出後のデータを集計や管理に使うためには、人の手による整理や転記作業が不可欠となります。

Googleサービスとの連携は可能だが手間もかかる
Geminiの活用範囲を広げる方法のひとつが、Googleの他のサービスとの連携です。スプレッドシートやDrive、Gmailと組み合わせることで、OCR処理後の情報を活かした業務フローを構築できます。ただし、その反面、運用上の手間や人的ミスのリスクも伴います。
スプレッドシートやGmailとの組み合わせによる活用
Google Geminiは、スプレッドシートやGoogle Drive、Gmailといった他のGoogleサービスと連携することで、OCRで取得した情報の活用を広げることができます。抽出データをスプレッドシートに貼り付けて集計したり、Drive上のファイル整理を効率化したりする活用例が代表的です。また、Gmailの添付ファイルから自動的に内容を読み取り、メール返信に要約を添付するといった使い方も可能です。
連携には人の手が必要で属人化のリスクも
一方で、GoogleスプレッドシートやGmail、Driveなどとのサービス連携を業務に取り入れるには、複数の手動操作や設定が必要になります。たとえば、抽出したテキストを手動で貼り付けたり、通知設定を個別に行うなど、プロセスが複雑化する傾向があります。このような業務の属人化は、精度のばらつきや引き継ぎの難しさを生む要因となりかねません。


業務でのOCR活用をさらに効率化する方法とは
Google Geminiを活用すれば、請求書のOCR処理を手軽に試すことができ、Googleサービスとの連携により一定の業務効率化も実現できます。しかし、実際の運用では手作業が残る場面が多く、業務全体を自動化するには限界があります。こうした課題を解決するためには、OCR後の処理まで一貫して対応できる仕組みが求められます。
手作業による処理の限界と自動化の必要性
Google Geminiで抽出したデータをスプレッドシートに貼り付けたり、Gmailで通知したりすることで、一定の業務効率化は可能です。しかし、それぞれの作業は手動で行う必要があり、件数が増えると負荷が大きくなります。また、担当者ごとに運用方法が異なると業務が属人化し、再現性や継続性に課題が残ります。
こうした状況を踏まえるとOCRでデータを取得した後の処理、すなわち情報の整理、登録、関係者への通知といった一連の業務フロー全体を自動化できる環境の整備が必要になります。
業務全体を効率化するOCR+RPAプラットフォーム
OCRによる文字情報の読み取りに加え、読み取った内容をそのまま後続業務につなげられるプラットフォームとして、「AI JIMY Paperbot」が注目されています。AI JIMY PaperbotはOCR、生成AI、RPAを搭載し、以下のような請求書処理を一括で自動化することが可能です。
- FAXやスキャンの指定フォルダ内の請求書などを自動取得
- 支払先名、日付、金額などの情報を高精度に抽出
- スプレッドシートや基幹システムへの自動転記
- ノーコードで利用できるため、現場担当者による運用も可能
手作業が介在しないため、ヒューマンエラーの防止、処理スピードの向上、業務の標準化が同時に実現します。Geminiを使ってOCR処理の有用性を実感した担当者にとって、AI JIMY Paperbotは「次のステップ」として導入を検討する価値のあるツールです。

まとめ
Google Geminiは、文字を読み取るだけでなく、その内容を整理・分析し、業務に活かせる形で提示してくれる“次世代のOCRアシスタント”です。請求書の読み取りも、ファイルをアップロードして指示を出すだけで必要な情報が抽出でき、想像以上にスムーズでした。
注意点を踏まえつつ、Google Workspaceと組み合わせて活用すれば、請求業務の自動化も現実的に。生成AIを“会話相手”にとどめず、日常業務の頼れる相棒として取り入れてみてはいかがでしょうか。