Kas ir optiskā rakstzīmju atpazīšana (OCR)?

Optiskā rakstzīmju atpazīšana (OCR) attiecas uz programmatūru, kas izveido drukātas, drukāts vai ar roku rakstīts dokuments, ko datori var lasīt bez nepieciešamības manuāli rakstīt vai ievadīt tekstu. OCR parasti izmanto skenētiem dokumentiem PDF formātā, bet attēla failā var izveidot arī datorlasāmu teksta versiju.

Kas ir OCR

OCR, saukta arī par teksta atpazīšanu, ir programmatūras tehnoloģija, kas pārveido rakstzīmes, piemēram, ciparus, burtus un pieturzīmes (arī ko sauc par glifiem) no drukātiem vai rakstītiem dokumentiem elektroniskā formā, ko datori un cita programmatūra vieglāk atpazīst un lasa programmas. Dažas OCR programmas to dara, kad dokuments tiek skenēts vai fotografēts ar digitālo kameru, savukārt citas var izmantot šo procesu dokumentiem, kas iepriekš ir skenēti vai fotografēti bez OCR. OCR ļauj lietotājiem meklēt PDF dokumentos, rediģēt tekstu un atkārtoti formatēt dokumentus.

Sieviete skenē vēsturisku laikrakstu OCR programmā
Vēsturisko laikrakstu skenēšana ar OCR programmatūru.

 Getty Images

Kam tiek izmantota OCR?

Ātrai, ikdienas skenēšanai OCR var nebūt liela problēma. Ja veicat lielu skenēšanas apjomu, iespēja meklēt PDF failos, lai atrastu tieši to, kas jums nepieciešams, var ietaupīt diezgan daudz laika un padarīt OCR funkcionalitāti skenera programmā svarīgāku. Šeit ir dažas citas lietas, ar ko OCR palīdz:

  • Automatizēta datu apstrāde un datu ievade (Piemērs: Darba pretendentu izsekošanas sistēmas CV).
  • Padarot skenētās grāmatas meklējamas.
  • Ar roku rakstītu skenētu attēlu konvertēšana datorlasāmā tekstā.
  • Padarot dokumentus ērtāk lietojamus lasītāju programmām, kas palīdz lietotājiem ar redzes traucējumiem.
  • Saglabājot vēsturiskus dokumentus un laikrakstus, vienlaikus padarot tos meklējamus.
  • Datu ieguve un pārsūtīšana uz grāmatvedības programmām (Piemērs: Kvītis un rēķini).
  • Dokumentu indeksēšana lietošanai līdz meklētājprogrammas.
  • Vadītāja numura zīmju atpazīšana ar ātruma kameru un sarkanās gaismas kameru programmatūru.
  • Runas sintezatori cilvēkiem, kuri neprot runāt – teorētiskais fiziķis Stīvens Hokings, iespējams, ir vispazīstamākais runas sintezatora programmas lietotājs.

Kāpēc izmantot OCR?

Kāpēc ne tikai nofotografēt, vai ne? Jo jūs nevarētu neko rediģēt vai meklēt tekstu, jo tas būtu tikai attēls. Dokumenta skenēšana un OCR palaišana programmatūra var pārvērst šo failu par kaut ko, ko varat rediģēt un meklēt.

OCR vēsture

Lai gan agrākā teksta atpazīšanas izmantošana ir datēta ar 1914. gadu, sākās ar OCR saistīto tehnoloģiju plaša attīstība un izmantošana. nopietni 1950. gados, īpaši ar ļoti vienkāršotu fontu izveidi, kurus bija vieglāk pārvērst digitāli lasāmos tekstu. Pirmo no šiem vienkāršotajiem fontiem izveidoja Deivids Šepards un plaši pazīstams kā OCR-7B. OCR-7B joprojām tiek izmantots finanšu nozarē standarta fontam, ko izmanto kredītkartēs un debetkartēs. Sešdesmitajos gados pasta pakalpojumi vairākās valstīs sāka izmantot OCR tehnoloģiju, lai ievērojami paātrinātu pasta šķirošanu, tostarp ASV, Lielbritānijā, Kanādā un Vācijā. OCR joprojām ir galvenā tehnoloģija, ko izmanto pasta šķirošanai pasta pakalpojumiem visā pasaulē. 2000. gadā galvenās zināšanas par OCR tehnoloģijas ierobežojumiem un iespējām tika izmantotas, lai izstrādātu CAPTCHA programmas izmanto, lai apturētu robotus un surogātpasta izplatītājus.

Gadu desmitu laikā OCR ir kļuvis precīzāks un sarežģītāks, pateicoties sasniegumiem saistītajās tehnoloģiju jomās, piemēram, mākslīgais intelekts, mašīnmācībaun datorredze. Mūsdienās OCR programmatūra izmanto modeļu atpazīšanu, funkciju noteikšanu un teksta ieguvi, lai pārveidotu dokumentus ātrāk un precīzāk nekā jebkad agrāk.

FAQ

  • Kā skenēt dokumentus ar tālruni vai planšetdatoru?

    Operētājsistēmā iOS atveriet lietotni Piezīmes un izveidojiet jaunu piezīmi. Atveriet kameru un pēc tam pieskarieties Skenēt dokumentus. Android ierīcē atveriet Google disku un atlasiet Plus (+), pēc tam pieskarieties Skenēt uz skenējiet dokumentu ar tālruni.

  • Kā lietot OCR programmā Adobe Acrobat?

    Atveriet PDF failu, kurā ir skenēts attēls, un pēc tam atlasiet Rīki > Rediģēt PDF. Programma Acrobat automātiski lietos OCR, lai jūs varētu rediģēt tekstu. Vienkārši atlasiet vietu, kur vēlaties veikt labojumus, un sāciet rakstīt.

  • Kāda ir atšķirība starp OCR un OMR?

    Optiskā zīmju atpazīšana (OMR) ir programmatūra, kas nosaka zīmes uz papīra, parasti uz burbuļlapas. OMR izmanto eksāmenu, aptauju, anketu un pat vēlēšanu rezultātu apstrādei. Atšķirībā no OCR, OMR nevar atšifrēt atzīmes lapā, bet tikai pārbauda, ​​vai zīmes ir tur.