Čo je to optické rozpoznávanie znakov (OCR)?

December 02, 2021
VMobilné Telefóny Android

Optické rozpoznávanie znakov (OCR) označuje softvér, ktorý vytvára digitálnu verziu tlačeného, písaný alebo rukou písaný dokument, ktorý môžu počítače čítať bez potreby manuálneho zadávania alebo zadávania text. OCR sa vo všeobecnosti používa na skenovaných dokumentoch v PDF formát, ale môže tiež vytvoriť počítačom čitateľnú verziu textu v rámci súboru obrázka.

Čo je OCR

OCR, tiež označované ako rozpoznávanie textu, je softvérová technológia, ktorá transformuje znaky, ako sú čísla, písmená a interpunkčné znamienka (tiež glyfy) z tlačených alebo písaných dokumentov do elektronickej podoby, ktorú počítače a iný softvér ľahšie rozpoznávajú a čítajú programy. Niektoré programy OCR to robia pri skenovaní alebo fotografovaní dokumentu digitálnym fotoaparátom a iné môžu tento proces použiť na dokumenty, ktoré boli predtým naskenované alebo odfotografované bez OCR. OCR umožňuje používateľom vyhľadávať v dokumentoch PDF, upravovať text a preformátovať dokumenty.

Žena skenuje historické noviny do programu OCR — Skenovanie historických novín pomocou softvéru OCR.
Getty Images

Na čo sa OCR používa?

Pre rýchle každodenné skenovanie nemusí byť OCR veľký problém. Ak vykonávate veľké množstvo skenovania, možnosť vyhľadávať v súboroch PDF, aby ste našli presne ten, ktorý potrebujete, môže ušetriť dosť času a robí funkciu OCR vo vašom programe skenera dôležitejšou. Tu je niekoľko ďalších vecí, s ktorými OCR pomáha:

Automatizované spracovanie údajov a zadávanie údajov (Príklad: Systémy sledovania uchádzačov o zamestnanie pre životopisy).
Umožnenie prehľadávania naskenovaných kníh.
Prevod ručne písaných skenov na počítačom čitateľný text.
Zlepšenie použiteľnosti dokumentov programami na čítanie, ktoré pomáhajú zrakovo postihnutým používateľom.
Zachovanie historických dokumentov a novín a zároveň ich možnosť vyhľadávania.
Extrakcia dát a prenos do účtovných programov (Príklad: účtenky a faktúry).
Indexovanie dokumentov na použitie pre vyhľadávače.
Rozpoznávanie ŠPZ vodiča pomocou rýchlostného radaru a softvéru kamery na červenú.
Syntetizátory reči pre ľudí, ktorí nevedia hovoriť – teoretický fyzik Stephen Hawking je snáď najznámejším používateľom programu na syntetizovanie reči.

Prečo používať OCR?

Prečo sa jednoducho neodfotiť, nie? Pretože by ste nemohli nič upravovať ani prehľadávať text, pretože by to bol len obrázok. Skenovanie dokumentu a spustenie OCR softvér môžete tento súbor zmeniť na niečo, čo môžete upravovať a môžete v ňom vyhľadávať.

História OCR

Zatiaľ čo najskoršie používanie rozpoznávania textu sa datuje do roku 1914, začal sa rozšírený vývoj a používanie technológií súvisiacich s OCR. vážne v 50. rokoch 20. storočia, konkrétne s vytvorením veľmi zjednodušených fontov, ktoré sa dali ľahšie previesť na digitálne čitateľné text. Prvé z týchto zjednodušených písiem vytvoril David Shepard a bežne je známe ako OCR-7B. OCR-7B sa dodnes používa vo finančnom priemysle pre štandardné písmo používané na kreditných a debetných kartách. V šesťdesiatych rokoch začali poštové služby v niekoľkých krajinách používať technológiu OCR na výrazné zrýchlenie triedenia pošty, vrátane Spojených štátov, Veľkej Británie, Kanady a Nemecka. OCR je stále hlavnou technológiou používanou na triedenie pošty pre poštové služby na celom svete. V roku 2000 boli kľúčové poznatky o limitoch a možnostiach technológie OCR využité na vývoj programy CAPTCHA používa sa na zastavenie robotov a spamerov.

V priebehu desaťročí sa OCR stalo presnejším a sofistikovanejším vďaka pokroku v súvisiacich technologických oblastiach, ako napr umela inteligencia, strojové učeniea počítačové videnie. Softvér OCR dnes využíva rozpoznávanie vzorov, detekciu funkcií a dolovanie textu na rýchlejšiu a presnejšiu transformáciu dokumentov ako kedykoľvek predtým.

FAQ

Ako môžem skenovať dokumenty pomocou telefónu alebo tabletu?

V systéme iOS otvorte aplikáciu Poznámky a vytvorte novú poznámku. Otvorte fotoaparát a potom klepnite na Skenovať dokumenty. V systéme Android otvorte Disk Google a vyberte položku Plus (+), potom klepnite na skenovať do naskenujte dokument pomocou telefónu.
Ako môžem použiť OCR v aplikácii Adobe Acrobat?

Otvorte súbor PDF obsahujúci naskenovaný obrázok a potom vyberte Nástroje > Upraviť PDF. Acrobat automaticky použije OCR, aby ste mohli upravovať text. Stačí si vybrať, kde chcete vykonať úpravy, a začať písať.
Aký je rozdiel medzi OCR a OMR?

Optical Mark Recognition (OMR) je softvér, ktorý deteguje značky na papieri, zvyčajne na bublinovom hárku. OMR sa používa na spracovanie výsledkov skúšok, prieskumov, dotazníkov a dokonca aj volieb. Na rozdiel od OCR nedokáže OMR rozlúštiť značky na stránke, ale iba overiť, či tam značky sú.