【おーしーあーる】

OCR(光学文字認識) とは?

💡 紙の文字をデジタルに変える「読み取りの目」
📌 このページのポイント
OCR 文字認識のフロー ① 画像入力 請求書 ¥12,000 ② 前処理 ノイズ除去 傾き補正 二値化 ③ 文字認識 パターン照合 AI/深層学習 特徴量抽出 ④ テキスト出力 請求書 ¥12,000 OCRの活用例 名刺の電子化 書類のデジタル化 レシート自動入力 紙→データ PDF→テキスト 経費精算の効率化 画像内の文字を読み取り、編集・検索可能なテキストに変換
OCR文字認識のフローイメージ
ひよこ ひよこ

OCRってどういうしくみなの?

ペンギン先生 ペンギン先生

大きく分けると3つのステップがあるよ。まず画像の中から文字がありそうな領域を見つけ出す。次にその領域を1文字ずつ切り分ける。最後に各文字が何の文字かを判定する。最近のAIベースのOCRは、これらを一気にやってしまうモデルもあるよ。

ひよこ ひよこ

どのくらい正確に読めるの?

ペンギン先生 ペンギン先生

きれいに印刷された活字なら99%以上の精度が出ることもあるよ。でも手書きの文字、かすれた文字、斜めに撮った写真なんかだと精度はぐっと下がるんだ。日本語は漢字・ひらがな・カタカナ・英数字が混在するから、英語よりも難しいと言われているよ。

ひよこ ひよこ

身近なところではどう使われてるの?

ペンギン先生 ペンギン先生

スマホで名刺を撮影すると連絡先が自動入力されるアプリや、レシートを撮って家計簿を付けるアプリがまさにOCRだよ。あとGoogle Lensで看板を撮ると翻訳してくれる機能も、まずOCRで文字を読み取ってから翻訳しているんだ。

ひよこ ひよこ

OCRの限界ってある?

ペンギン先生 ペンギン先生

レイアウトの理解がまだまだ難しいんだよね。人間なら「この表の行と列の関係」や「この注釈はどの文に対応するか」を直感的に理解できるけど、OCRは文字を読めても文書の構造を正確に把握するのが苦手なんだ。請求書のような定型書類でさえ、フォーマットが微妙に違うと項目の対応を間違える。文字認識と文書理解は全然別の問題で、後者はいまだに活発に研究されているテーマだよ。

ペンギン
まとめ:ざっくりこれだけ覚えればOK!
「OCR」って出てきたら「画像の中の文字を読み取ってテキストに変換する技術のことだな」と思えればだいたいOK!
📖 おまけ:英語の意味
「OCR(Optical Character Recognition)」 = 光学的文字認識
💬 Opticalは「光学的な」、Characterは「文字」、Recognitionは「認識」。光を使って文字を読み取るという意味だよ
← 用語集にもどる