OCR・・・中医学等の勉強をするとき、本をPDF化して検索できるようにしておくと便利です。
本を撮影画像の鮮明さが欠けていてOCRの読み取り精度は低くなりサンプルは以下の感じです。
読み取りサンプル画像。
まずはGoogle Gemini でOCR処理出力したものは、カンペキに読み取れていました。本当に優れている!
【Google Gemini にてOCR 完成度 100%】
復刻された『増補能毒』の序文のなかで、先生は次のように書かれている。
「この書が気に入った最大の理由は著者が臨床家で日常の診察を通じて薬物の使い方を具体的に書かれているからである。
このかすれたテキストデータでの読み取り100%は、GeminiやNotebookLMに添付した画像PDFを正確にOCR処理していることが期待できるもの。そして10MB程度ページ数は10枚前後の小さな文書PDFは、Googleドライブに入れてからGoogleドキュメントにOCR結果を出力させることができます。無料で利用できこの高精度は魅力的ですね。
ただ不利益な点は、PDFの元の原稿に透明文字として書き込む処理はできません。
それに500ページ超えで300MBを越えたPDFファイルも少なくないため、このPDFを10MB10ページに分割して利用する大変さを考えれば、利用は精度を求めたピンポイントとなるのでしょう。
対していつもは読み取り名人という、昔購入したもので最近はAI対応のバージョンアップ版もあるようだが、古くなったバージョンのままでOCRを利用しています。かすれた文字以外は、識字率に不満はありませんが、かすれた文字が入ると漢字は特にご認識率が高まります。
訂正箇所が多く、中薬や漢方処方などに至れば、さらに識字率が低下します。
【読み取り名人 にてOCR 7訂正】
徴 刻 〘訂正:徴刻→復刻〙され た 増補 能 疾〘訂正:疾→毒〙 』 の 序文 の な か で 、 先 生 は 次 の よう に 普 〘訂正:普→書〙か れ て いる 。 「 こ の 蘭〘訂正:蘭→書〙 が 気に入っ た 区 大 〘訂正:最大〙の 理由 は 著者 が 臨床 家 で 日 常 の 診 穴〘訂正:穴→察〙 を 通じ て 薬物 の 使い 方 を 具 体 的 に 壮 〘訂正:壮→書〙か れ て いる か ら で あ る 。
そこで他に利用できそうなものはと探してみました。
PDF24 CreatorというドイツのGeek Software社が開発している、完全無料・広告なし・オフライン動作のWindows向けPDFツール群をみつけました。
内部的に「Tesseract(テッセラクト)」という高精度なOCRエンジンを搭載しています。
こちらはWebオンラインツールでもサービスが無料で提供されております。
https://tools.pdf24.org/ja/
Windowsパソコンのアプリケーションとしても利用できるそうです。
『もしかしたら、これで読み取り名人の読み取り精度を越えるのでしょうか😄』と期待してオンラインツールのサービスで透明文字付き出力をしてもらいました。
すると結果は、、、、。
【PDF24 にてOCR 8訂正】
刻 さ れ た [〘訂正:{→『〙増補 能 **着**〘訂正:着→毒〙 』 の 序文 の な か で 、 先 生 は 次 の よ うに 和〘訂正:和→なし〙書 か れ て いる 。 i〘訂正:|→「〙 こ の 革〘訂正:革→書〙 が 気に入っ た 鬼 〘訂正:鬼→最〙大 の 理由 は 著者 が 臨床 家 で 日 常 の 診 祭〘訂正:祭→察〙 を 通し て 薬物 の 使い 方 を 具 体 的 に 午 〘訂正:午→書〙か れ て いる か ら で あ る 。
読み取り名人が文字認識をミスしたところと同じ箇所にミスが入っており、期待値を越える成果ではなかったようです。
ですが無料でダウロード(ファイルサイズは500MB前後らしい)して使用できて、日本語以外の各国言語の対応し、高精度OCRエンジンTesseractを積んでいる。だったらOCRソフトをお持ちでない方には朗報じゃないでしょうか?透明文字付きPDFを大量に出力処理したいとか、オフラインでPDFを様々加工できるというのは情報の機密保持にも叶い価値は高いでしょう。
読み取り名人のほうが、認識後に修正する細かい作業ができる分、使い勝手はいい点はありますが、文字認識をするため必ずファイル画像をページごとに読み込ませなければならず、そのための時間がファイルの大きいものでは10分前後かかってしまう。対してPDF24ではOCRをしたいファイルを指定していくつかの詳細設定をすればいいだけ。画像を開く手間や時間がかからず、即、OCR作業をしてくれるのです。
後日、私もダウンロードしてPDF24の24ものPDFを使いこなしに欠かせないツールを手に入れようと考えているところです。
中国語の中医学や薬膳の専門書を手に入れたから、PDF24なら中国語設定で文字認識もできますから役に立ってくれそうです。
追伸:2026年6月7日
私が使っていたOCRは読取革命Ver15でした。
ABBYY FineReaderを1年契約で使おうかと考えて、Geminiで読取革命15とABBYY FineReaderのそれぞれのOCR精度を比較しました。
結果は以下となりますが、読取革命15で十分じゃないか・・・ということに。
条件別のOCR精度比較(認識率の目安%)
1. 綺麗にスキャンされた日本語ビジネス文書(現代の明朝・ゴシック体)
ABBYY FineReader: 99%
読取革命 Ver.15: 98% 〜 99%
【差異】:ABBYYのほうが 約0.5%〜1% 優位(ほぼ互角だがABBYYのフォント対応力が上)
具体的な差: どちらもほぼ完璧に読み取ります。ただ、読取革命 Ver.15は一昔前の主要フォントに最適化されているため、最近のモダンなフォントや、英語・数字が複雑に混ざるIT系の文書などでは、現代も進化を続けているABBYYのほうがフォントの誤認識が少なくなります。
2. 縦書き、2段組み、複雑なレイアウト(日本語の専門書や雑誌など)
ABBYY FineReader: 95% 〜 97%
読取革命 Ver.15: 92% 〜 95%
【差異】:ABBYYのほうが 約2%〜3% 優位
具体的な差: レイアウト解析(文章をどの順番で読むか、図をどう避けるか)は、現代のAIを組み込んだABBYYが非常に優秀です。読取革命 Ver.15も縦書きのブロック認識は得意ですが、稀に文章のブロックを誤って結合してしまうことがあります。ABBYYは段組みの境界線を正確に見極めます。
3. 「ルビ(ふりがな)」が付いた日本の書籍・文献
ここが両者の最も大きな**「処理思想の差」**が出る部分です。
読取革命 Ver.15: 85% 〜 90% (ルビを検知して分離する能力が高い)
ABBYY FineReader: 70% 〜 80% (ルビを「ゴミ」とみなすか、本文に巻き込みやすい)
【差異】:読取革命のほうが 約10%〜15% 圧倒的に優位
具体的な差: ABBYYはグローバル仕様のため、漢字のすぐ上(または右)にある「極小のルビ文字」の処理が苦手です。ルビをメインの文字列と誤認して、漢字の間に謎のひらがなが挟まったテキストを吐き出しがちです。対して読取革命は、日本の文字文化に合わせて作られているため、ルビを「無視する」あるいは「別データとして処理する」設定がしっかり機能します。
4. 古い文献、低品質なコピー・FAX(かすれ、滲みがある)
ABBYY FineReader: 80% 〜 85%
読取革命 Ver.15: 75% 〜 85%
【差異】:ほぼ互角(得意とする文字の潰れ方が異なる)
具体的な差:
ABBYYは、画像補正(コントラスト調整や歪み補正)のアルゴリズムが現代的で強力なため、文字そのものをクッキリさせてからAIで文字の形を推測します。英数字や近代的な日本語なら潰れていても高精度です。
読取革命 Ver.15は、日本の古い役所書類やFAXなど、「日本語特有のかすれパターン」の辞書データが強いため、ドロっと潰れた古い漢字などを執念深く拾い上げることがあります。
PDF24 をWindowsPCにインストールしてOCR機能をもちいて読取革命15と出力結果を比較しました。
すると意外なほど精度が似通っています。
読取革命でOCRした結果の画像がかすれたりぼやけたりしたファイルが、さらにOCR精度が高くなればと願っていましたが、
意外に現状でほぼ満足しなければならないということがわかりました。
OCR精度の最良は、変わらずGoogleのGeminiを通してえられたものと実感しました。
かすれた文字もほぼほぼ完璧なOCR結果をだしてくれるのは感涙です。
ただこちらにはページ数やサイズ量に制限がございます。
いずれ有料で制限を緩めてくれるなら、そこに投資は惜しみませんが。。。
いまは制限内に必要部分を抜粋し、そのページをGoogleドキュメントへOCR出力をしていただくのがよいのかと思われます。
Googleドライブにアップロードするには時間がけっこうかかるものの、Googleドライブ内のPDFファイルなら処理も早くなります。
ただ読取革命のOCRは純日本製で、中国語の読み取りは苦手です。
対してインストールしたPDF24 は中国語を含め各国語対応ができますから、
中国語の薬膳や経絡や砭石の本など中医学関係の本をOCRできることを試すことができました。
無料で中国語のOCRができることは驚きですね。
(PDF24 オンライン版は以下となります)
PDF24 Tools: 無料で使いやすいオンラインPDFツール
https://tools.pdf24.org/ja/
OCR時の設定例
1. 医学書・学術資料(図と本文が混在する場合)
モデル: Best
セグメンテーション: 自動
デスキュー: ON
背景を削除: ON(古い紙の黄ばみを飛ばすため)
既存のテキストを削除 ON
解説: この設定が最もバランスが良く、論理的な文書構造(段落や見出し)を維持しつつ、ノイズを排除して高精度に読み取ります。











