Che cos'è il riconoscimento ottico dei caratteri (OCR)?

Il riconoscimento ottico dei caratteri (OCR) si riferisce al software che crea una versione digitale di un documento stampato, documento digitato o scritto a mano che i computer possono leggere senza la necessità di digitare manualmente o inserire il testo. L'OCR viene generalmente utilizzato sui documenti scansionati in PDF formato, ma può anche creare una versione leggibile dal computer del testo all'interno di un file immagine.

Che cos'è l'OCR

L'OCR, noto anche come riconoscimento del testo, è una tecnologia software che trasforma caratteri come numeri, lettere e punteggiatura (anche chiamati glifi) da documenti stampati o scritti in un formato elettronico più facilmente riconoscibile e leggibile da computer e altri software programmi. Alcuni programmi OCR lo fanno quando un documento viene scansionato o fotografato con una fotocamera digitale e altri possono applicare questo processo a documenti che sono stati precedentemente scansionati o fotografati senza OCR. L'OCR consente agli utenti di eseguire ricerche all'interno di documenti PDF, modificare il testo e riformattare i documenti.

Donna che esegue la scansione di un giornale storico nel programma OCR
Scansione di giornali storici con software OCR.

 Getty Images

A cosa serve l'OCR?

Per le esigenze di scansione rapida e quotidiana, l'OCR potrebbe non essere un grosso problema. Se si esegue una grande quantità di scansioni, essere in grado di cercare all'interno dei PDF per trovare quello esatto di cui si ha bisogno può far risparmiare un po' di tempo e rendere più importante la funzionalità OCR nel programma dello scanner. Ecco alcune altre cose con cui l'OCR aiuta:

  • Elaborazione e inserimento dati automatizzati (Esempio: Sistemi di monitoraggio dei candidati per i curricula).
  • Rendere ricercabili i libri scansionati.
  • Conversione di scansioni scritte a mano in testo leggibile da computer.
  • Rendere i documenti più utilizzabili dai programmi di lettura che assistono gli utenti ipovedenti.
  • Preservare documenti storici e giornali, rendendoli anche ricercabili.
  • Estrazione dati e trasferimento a programmi di contabilità (Esempio: Ricevute e fatture).
  • Indicizzazione dei documenti per l'utilizzo da parte di motori di ricerca.
  • Riconoscimento delle targhe dei conducenti da parte di un software per autovelox e telecamere a semaforo rosso.
  • Sintetizzatori vocali per persone che non possono parlare: il fisico teorico Stephen Hawking è forse l'utente più noto di un programma di sintesi vocale.

Perché usare l'OCR?

Perché non fare semplicemente una foto, giusto? Perché non saresti in grado di modificare nulla o cercare il testo perché sarebbe solo un'immagine. Scansione del documento ed esecuzione dell'OCR Software può trasformare quel file in qualcosa che puoi modificare ed essere in grado di cercare.

Storia dell'OCR

Mentre il primissimo utilizzo del riconoscimento del testo risale al 1914, iniziò lo sviluppo e l'uso diffuso delle tecnologie relative all'OCR sul serio negli anni '50, in particolare con la creazione di caratteri molto semplificati che erano più facili da convertire in leggibili digitalmente testo. Il primo di questi caratteri semplificati è stato creato da David Shepard e comunemente noto come OCR-7B. OCR-7B è ancora in uso oggi nel settore finanziario per il carattere standard utilizzato su carte di credito e carte di debito. Negli anni '60, i servizi postali di diversi paesi hanno iniziato a utilizzare la tecnologia OCR per accelerare notevolmente lo smistamento della posta, inclusi Stati Uniti, Gran Bretagna, Canada e Germania. L'OCR è ancora la tecnologia di base utilizzata per smistare la posta per i servizi postali in tutto il mondo. Nel 2000, la conoscenza chiave dei limiti e delle capacità della tecnologia OCR è stata utilizzata per sviluppare il Programmi CAPTCHA utilizzato per fermare bot e spammer.

Nel corso dei decenni, l'OCR è diventato più accurato e più sofisticato grazie ai progressi nelle aree tecnologiche correlate come intelligenza artificiale, apprendimento automaticoe visione artificiale. Oggi, il software OCR utilizza il riconoscimento dei modelli, il rilevamento delle funzionalità e l'estrazione di testo per trasformare i documenti in modo più rapido e accurato che mai.

FAQ

  • Come posso scansionare documenti con il mio telefono o tablet?

    Su iOS, apri l'app Note e crea una nuova nota. Apri la fotocamera, quindi tocca Scansiona documenti. Su Android, apri Google Drive e seleziona Più (+), quindi tocca Scansione a scansiona il documento con il tuo telefono.

  • Come si usa l'OCR in Adobe Acrobat?

    Apri un file PDF contenente un'immagine scansionata, quindi seleziona Utensili > Modifica PDF. Acrobat applicherà automaticamente l'OCR in modo da poter modificare il testo. Basta selezionare dove si desidera apportare modifiche e iniziare a digitare.

  • Qual è la differenza tra OCR e OMR?

    Optical Mark Recognition (OMR) è un software che rileva i segni sulla carta, in genere un foglio a bolle. L'OMR viene utilizzato per elaborare i risultati di esami, sondaggi, questionari e persino elezioni. A differenza dell'OCR, OMR non può decifrare i segni sulla pagina, ma verifica solo che i segni siano presenti.