Mikä on optinen merkintunnistus (OCR)?

December 02, 2021
SisäänMatkapuhelimet Android

Optinen merkintunnistus (OCR) tarkoittaa ohjelmistoa, joka luo digitaalisen version painetusta, kirjoitettu tai käsinkirjoitettu asiakirja, jonka tietokoneet voivat lukea ilman, että sinun tarvitsee kirjoittaa tai syöttää käsin teksti. Tekstintunnistusta käytetään yleensä skannatuissa asiakirjoissa PDF muodossa, mutta voi myös luoda tietokoneella luettavan version kuvatiedoston tekstistä.

Mikä OCR on

OCR, jota kutsutaan myös tekstintunnistukseksi, on ohjelmistotekniikka, joka muuntaa merkkejä, kuten numeroita, kirjaimia ja välimerkkejä (myös kutsutaan kuvioiksi) painetuista tai kirjoitetuista asiakirjoista sähköiseen muotoon, joka on helpompi tunnistaa ja lukea tietokoneiden ja muiden ohjelmistojen avulla ohjelmia. Jotkut tekstintunnistusohjelmat tekevät tämän, kun asiakirja skannataan tai valokuvataan digitaalikameralla, ja toiset voivat soveltaa tätä prosessia asiakirjoihin, jotka on aiemmin skannattu tai valokuvattu ilman tekstintunnistusta. OCR: n avulla käyttäjät voivat etsiä PDF-dokumenteista, muokata tekstiä ja muotoilla asiakirjoja uudelleen.

Nainen skannaa historiallista sanomalehteä OCR-ohjelmaan — Historiallisen sanomalehden skannaus OCR-ohjelmistolla.
Getty Images

Mihin OCR: ää käytetään?

Nopeissa päivittäisissä skannaustarpeissa OCR ei ehkä ole iso juttu. Jos skannaat paljon, pystyt etsimään PDF-tiedostoja löytääksesi juuri tarvitsemasi asiakirjan, mikä säästää melkoisesti aikaa ja tekee skanneriohjelmasi tekstintunnistustoiminnasta entistä tärkeämpää. Tässä on joitain muita asioita, joissa OCR auttaa:

Automaattinen tietojenkäsittely ja tietojen syöttö (Esimerkki: Työnhakijoiden seurantajärjestelmät ansioluetteloita varten).
Skannattujen kirjojen tekeminen haettavaksi.
Käsinkirjoitettujen skannausten muuntaminen tietokoneella luettavaksi tekstiksi.
Näkövammaisia käyttäjiä avustavien lukuohjelmien tekeminen asiakirjoista helpommin käytettäviksi.
Säilyttää historiallisia asiakirjoja ja sanomalehtiä ja tehdä niistä haettavia.
Tietojen poiminta ja siirto kirjanpito-ohjelmiin (Esimerkki: Kuitit ja laskut).
Asiakirjojen indeksointi käytettäväksi hakukoneet.
Kuljettajan rekisterikilpien tunnistus nopeuskamera- ja punavalokameraohjelmistolla.
Puhesyntetisaattorit ihmisille, jotka eivät osaa puhua – teoreettinen fyysikko Stephen Hawking on ehkä tunnetuin puhesyntetisaattoriohjelman käyttäjä.

Miksi käyttää tekstintunnistusta?

Mikset vain ottaisi kuvaa, eikö niin? Koska et voisi muokata mitään tai etsiä tekstiä, koska se olisi vain kuva. Asiakirjan skannaus ja OCR: n suorittaminen ohjelmisto voi muuttaa tiedoston sellaiseksi, jota voit muokata ja voit etsiä.

OCR: n historia

Vaikka tekstintunnistuksen varhaisin käyttö on peräisin vuodelta 1914, OCR: ään liittyvien teknologioiden laaja kehitys ja käyttö alkoi. tosissaan 1950-luvulla, erityisesti luomalla hyvin yksinkertaistettuja fontteja, jotka oli helpompi muuntaa digitaalisesti luettaviksi teksti. Ensimmäisen näistä yksinkertaistetuista fonteista loi David Shepard, ja se tunnetaan yleisesti nimellä OCR-7B. OCR-7B on edelleen käytössä finanssialalla luotto- ja pankkikorteissa käytettävän vakiofontin kanssa. 1960-luvulla postipalvelut alkoivat useissa maissa käyttää OCR-tekniikkaa postin lajittelun huomattavaan nopeuttamiseen, mukaan lukien Yhdysvallat, Iso-Britannia, Kanada ja Saksa. OCR on edelleen ydintekniikka, jota käytetään postin lajittelussa postipalveluja varten kaikkialla maailmassa. Vuonna 2000 OCR-tekniikan rajojen ja kykyjen keskeistä tietämystä käytettiin kehittämään CAPTCHA-ohjelmat käytetään estämään botteja ja roskapostittajia.

Vuosikymmenten aikana OCR on kasvanut tarkemmaksi ja kehittyneempään liittyvien teknologia-alueiden, kuten esim tekoäly, koneoppiminenja tietokonenäkö. Nykyään OCR-ohjelmisto käyttää hahmontunnistusta, ominaisuuksien tunnistusta ja tekstinlouhintaa asiakirjojen muuntamiseen nopeammin ja tarkemmin kuin koskaan ennen.

FAQ

Kuinka skannaan asiakirjoja puhelimella tai tabletilla?

iOS: ssä avaa Notes-sovellus ja luo uusi muistiinpano. Avaa kamera ja napauta sitten Skannaa asiakirjat. Avaa Androidissa Google Drive ja valitse Plus (+), napauta sitten Skannata kohtaan skannaa asiakirja puhelimellasi.
Kuinka käytän tekstintunnistusta Adobe Acrobatissa?

Avaa skannatun kuvan sisältävä PDF-tiedosto ja valitse sitten Työkalut > Muokkaa PDF. Acrobat käyttää automaattisesti tekstintunnistusta, jotta voit muokata tekstiä. Valitse vain, missä haluat tehdä muokkauksia, ja ala kirjoittaa.
Mitä eroa on OCR: n ja OMR: n välillä?

Optical Mark Recognition (OMR) on ohjelmisto, joka havaitsee merkit paperilla, tyypillisesti kuplaarkilla. OMR: ää käytetään kokeiden, kyselyiden, kyselyiden ja jopa vaalien tulosten käsittelyyn. Toisin kuin OCR, OMR ei voi tulkita sivun merkkejä, vaan vain varmistaa, että merkit ovat siellä.