Co je optické rozpoznávání znaků (OCR)?

Optické rozpoznávání znaků (OCR) označuje software, který vytváří digitální verzi tištěného psaný nebo ručně psaný dokument, který mohou počítače číst, aniž by bylo nutné jej ručně zadávat nebo zadávat text. OCR se obecně používá u naskenovaných dokumentů v PDF formát, ale může také vytvořit počítačově čitelnou verzi textu v souboru obrázku.

Co je OCR

OCR, také označované jako rozpoznávání textu, je softwarová technologie, která transformuje znaky, jako jsou čísla, písmena a interpunkční znaménka (také nazývané glyfy) z tištěných nebo psaných dokumentů do elektronické podoby, která je snadněji rozpoznatelná a čitelná počítači a dalším softwarem programy. Některé programy OCR to dělají při skenování nebo fotografování dokumentu digitálním fotoaparátem a jiné mohou tento proces použít na dokumenty, které byly dříve naskenovány nebo vyfotografovány bez OCR. OCR umožňuje uživatelům vyhledávat v dokumentech PDF, upravovat text a přeformátovat dokumenty.

Žena skenování historických novin do programu OCR
Skenování historických novin pomocí softwaru OCR.

 Getty Images

K čemu se OCR používá?

Pro rychlé každodenní skenování nemusí být OCR velký problém. Pokud provádíte velké množství skenování, možnost vyhledávat v souborech PDF, abyste našli přesně ten, který potřebujete, může ušetřit poměrně dost času a funkce OCR ve vašem programu skeneru je důležitější. Zde je několik dalších věcí, se kterými OCR pomáhá:

  • Automatizované zpracování dat a zadávání dat (Příklad: Systémy pro sledování uchazečů o zaměstnání pro životopisy).
  • Umožňuje vyhledávat naskenované knihy.
  • Převod ručně psaných skenů na text čitelný počítačem.
  • Lepší použitelnost dokumentů pro programy pro čtení, které pomáhají zrakově postiženým uživatelům.
  • Uchovávání historických dokumentů a novin a zároveň je umožňuje vyhledávat.
  • Vytěžování dat a přenos do účetních programů (Příklad: účtenky a faktury).
  • Indexování dokumentů pro použití uživatelem vyhledávače.
  • Rozpoznávání SPZ řidičů pomocí softwaru pro měření rychlosti a kamery na červenou.
  • Syntetizátory řeči pro lidi, kteří neumí mluvit – teoretický fyzik Stephen Hawking je možná nejznámějším uživatelem programu pro syntetizéry řeči.

Proč používat OCR?

Proč to prostě nevyfotit, že? Protože byste nemohli nic upravovat ani hledat v textu, protože by to byl jen obrázek. Naskenování dokumentu a spuštění OCR software můžete tento soubor proměnit v něco, co můžete upravovat a umět vyhledávat.

Historie OCR

Zatímco úplně první použití rozpoznávání textu pochází z roku 1914, začal se široce rozvíjet a používat technologie související s OCR. vážně v 50. letech 20. století, konkrétně s vytvořením velmi zjednodušených písem, které bylo snazší převést na digitálně čitelné text. První z těchto zjednodušených písem vytvořil David Shepard a je běžně známý jako OCR-7B. OCR-7B se dodnes používá ve finančním průmyslu pro standardní písmo používané na kreditních a debetních kartách. V 60. letech 20. století začaly poštovní služby v několika zemích používat technologii OCR k výraznému urychlení třídění pošty, včetně Spojených států, Velké Británie, Kanady a Německa. OCR je stále základní technologií používanou k třídění pošty pro poštovní služby po celém světě. V roce 2000 byly klíčové znalosti limitů a možností technologie OCR využity k vývoji programy CAPTCHA slouží k zastavení robotů a spammerů.

V průběhu desetiletí se OCR stal přesnějším a sofistikovanějším díky pokroku v souvisejících technologických oblastech, jako je např umělá inteligence, strojové učenía počítačové vidění. Software OCR dnes využívá rozpoznávání vzorů, detekci funkcí a dolování textu k rychlejší a přesnější transformaci dokumentů než kdykoli předtím.

FAQ

  • Jak naskenuji dokumenty pomocí telefonu nebo tabletu?

    V systému iOS otevřete aplikaci Poznámky a vytvořte novou poznámku. Otevřete fotoaparát a potom klepněte na Skenování dokumentů. V systému Android otevřete Disk Google a vyberte Plus (+), poté klepněte na Skenovat na naskenujte dokument telefonem.

  • Jak mohu používat OCR v aplikaci Adobe Acrobat?

    Otevřete soubor PDF obsahující naskenovaný obrázek a vyberte Nástroje > Upravit PDF. Acrobat automaticky použije OCR, abyste mohli upravovat text. Stačí vybrat, kde chcete provádět úpravy, a začít psát.

  • Jaký je rozdíl mezi OCR a OMR?

    Optical Mark Recognition (OMR) je software, který detekuje značky na papíře, obvykle bublinkovém listu. OMR se používá ke zpracování výsledků zkoušek, průzkumů, dotazníků a dokonce i voleb. Na rozdíl od OCR neumí OMR značky na stránce dešifrovat, ale pouze ověřit, že tam značky jsou.