【おーしーあーる】
OCR(光学文字認識) とは?
💡 紙の文字をデジタルに変える「読み取りの目」
📌 このページのポイント
OCRってどういうしくみなの?
大きく分けると3つのステップがあるよ。まず画像の中から文字がありそうな領域を見つけ出す。次にその領域を1文字ずつ切り分ける。最後に各文字が何の文字かを判定する。最近のAIベースのOCRは、これらを一気にやってしまうモデルもあるよ。
どのくらい正確に読めるの?
きれいに印刷された活字なら99%以上の精度が出ることもあるよ。でも手書きの文字、かすれた文字、斜めに撮った写真なんかだと精度はぐっと下がるんだ。日本語は漢字・ひらがな・カタカナ・英数字が混在するから、英語よりも難しいと言われているよ。
身近なところではどう使われてるの?
OCRの限界ってある?
レイアウトの理解がまだまだ難しいんだよね。人間なら「この表の行と列の関係」や「この注釈はどの文に対応するか」を直感的に理解できるけど、OCRは文字を読めても文書の構造を正確に把握するのが苦手なんだ。請求書のような定型書類でさえ、フォーマットが微妙に違うと項目の対応を間違える。文字認識と文書理解は全然別の問題で、後者はいまだに活発に研究されているテーマだよ。
まとめ:ざっくりこれだけ覚えればOK!
「OCR」って出てきたら「画像の中の文字を読み取ってテキストに変換する技術のことだな」と思えればだいたいOK!
📖 おまけ:英語の意味
「OCR(Optical Character Recognition)」 = 光学的文字認識
💬 Opticalは「光学的な」、Characterは「文字」、Recognitionは「認識」。光を使って文字を読み取るという意味だよ