Hva er optisk tegngjenkjenning (OCR)?

Optical Character Recognition (OCR) refererer til programvare som lager en digital versjon av en trykt, maskinskrevne eller håndskrevne dokument som datamaskiner kan lese uten å måtte skrive eller skrive inn manuelt tekst. OCR brukes vanligvis på skannede dokumenter i PDF format, men kan også lage en datamaskinlesbar versjon av tekst i en bildefil.

Hva er OCR

OCR, også referert til som tekstgjenkjenning, er programvareteknologi som transformerer tegn som tall, bokstaver og tegnsetting (også kalt glyfer) fra trykte eller skrevne dokumenter til en elektronisk form som lettere gjenkjennes og leses av datamaskiner og annen programvare programmer. Noen OCR-programmer gjør dette ettersom et dokument skannes eller fotograferes med et digitalkamera, og andre kan bruke denne prosessen på dokumenter som tidligere er skannet eller fotografert uten OCR. OCR lar brukere søke i PDF-dokumenter, redigere tekst og formatere dokumenter på nytt.

Kvinne skanner historisk avis inn i OCR-program
Skanner historisk avis med OCR-programvare.

 Getty bilder

Hva brukes OCR til?

For raske, dagligdagse skanningsbehov, er OCR kanskje ikke en stor sak. Hvis du skanner mye, kan det å søke i PDF-filer for å finne akkurat den du trenger spare mye tid og gjøre OCR-funksjonaliteten i skannerprogrammet viktigere. Her er noen andre ting OCR hjelper med:

  • Automatisert databehandling og dataregistrering (Eksempel: Jobbsøkersporingssystemer for CV).
  • Gjøre skannede bøker søkbare.
  • Konvertering av håndskrevne skanninger til datamaskinlesbar tekst.
  • Gjør dokumenter mer brukbare av leserprogrammer som hjelper synshemmede brukere.
  • Ta vare på historiske dokumenter og aviser, samtidig som de gjør dem søkbare.
  • Datauttak og overføring til regnskapsprogrammer (Eksempel: Kvitteringer og fakturaer).
  • Indeksering av dokumenter for bruk av søkemotorer.
  • Gjenkjenning av førerkort med fotoboks og programvare for rødt lyskamera.
  • Talesyntese for folk som ikke kan snakke – teoretisk fysiker, Stephen Hawking, er kanskje den mest kjente brukeren av et talesynteseprogram.

Hvorfor bruke OCR?

Hvorfor ikke bare ta et bilde, ikke sant? Fordi du ikke ville være i stand til å redigere noe eller søke i teksten fordi det bare ville være et bilde. Skanner dokumentet og kjører OCR programvare kan gjøre den filen om til noe du kan redigere og søke etter.

Historien om OCR

Mens den aller tidligste bruken av tekstgjenkjenning dateres til 1914, begynte den utbredte utviklingen og bruken av OCR-relaterte teknologier for alvor på 1950-tallet, spesielt med etableringen av svært forenklede fonter som var lettere å konvertere til digitalt lesbare tekst. Den første av disse forenklede skriftene ble laget av David Shepard og kjent som OCR-7B. OCR-7B er fortsatt i bruk i dag i finansbransjen for standardfonten som brukes på kredittkort og debetkort. På 1960-tallet begynte posttjenester i flere land å bruke OCR-teknologi for å øke hastigheten på postsorteringen betydelig, inkludert USA, Storbritannia, Canada og Tyskland. OCR er fortsatt kjerneteknologien som brukes til å sortere post for posttjenester rundt om i verden. I 2000 ble nøkkelkunnskap om grensene og mulighetene til OCR-teknologi brukt til å utvikle CAPTCHA-programmer brukes til å stoppe roboter og spammere.

I løpet av tiårene har OCR vokst seg mer nøyaktig og mer sofistikert på grunn av fremskritt innen relaterte teknologiområder som f.eks. kunstig intelligens, maskinlæring, og datasyn. I dag bruker OCR-programvare mønstergjenkjenning, funksjonsdeteksjon og tekstutvinning for å transformere dokumenter raskere og mer nøyaktig enn noen gang før.

FAQ

  • Hvordan skanner jeg dokumenter med telefonen eller nettbrettet?

    På iOS åpner du Notes-appen og oppretter et nytt notat. Åpne kameraet, og trykk deretter på Skann dokumenter. På Android åpner du Google Disk og velger Plus (+), og trykk deretter på Skann til skann dokumentet med telefonen.

  • Hvordan bruker jeg OCR i Adobe Acrobat?

    Åpne en PDF-fil som inneholder et skannet bilde, og velg deretter Verktøy > Rediger PDF. Acrobat vil automatisk bruke OCR slik at du kan redigere teksten. Bare velg hvor du vil gjøre endringer og begynn å skrive.

  • Hva er forskjellen mellom OCR og OMR?

    Optical Mark Recognition (OMR) er programvare som oppdager merker på papir, vanligvis et bobleark. OMR brukes til å behandle resultatene av eksamener, undersøkelser, spørreskjemaer og til og med valg. I motsetning til OCR kan ikke OMR tyde merkene på siden, men bare bekrefte at merkene er der.