¿Qué es el reconocimiento óptico de caracteres (OCR)?

El reconocimiento óptico de caracteres (OCR) se refiere al software que crea una versión digital de un documento mecanografiado o escrito a mano que las computadoras pueden leer sin la necesidad de escribir manualmente o ingresar el texto. El OCR se utiliza generalmente en documentos escaneados en PDF formato, pero también puede crear una versión de texto legible por computadora dentro de un archivo de imagen.

Qué es OCR

OCR, también conocido como reconocimiento de texto, es una tecnología de software que transforma caracteres como números, letras y puntuación (también llamados glifos) de documentos impresos o escritos a un formato electrónico más fácil de reconocer y leer por computadoras y otro software programas. Algunos programas de OCR hacen esto cuando un documento se escanea o fotografía con una cámara digital y otros pueden aplicar este proceso a documentos que han sido escaneados o fotografiados previamente sin OCR. OCR permite a los usuarios buscar en documentos PDF, editar texto y volver a formatear documentos.

Mujer escaneando un periódico histórico en un programa de OCR
Escaneo de periódicos históricos con software OCR.

 imágenes falsas

¿Para qué se utiliza el OCR?

Para las necesidades diarias de escaneo rápido, el OCR puede no ser un gran problema. Si realiza una gran cantidad de escaneo, poder buscar dentro de los archivos PDF para encontrar el que necesita puede ahorrar bastante tiempo y hace que la funcionalidad OCR en su programa de escaneo sea más importante. Aquí hay algunas otras cosas con las que ayuda el OCR:

  • Procesamiento e ingreso de datos automatizados (Ejemplo: Sistemas de seguimiento de solicitantes de empleo para currículums).
  • Hacer que los libros escaneados se puedan buscar.
  • Conversión de escaneos escritos a mano en texto legible por computadora.
  • Hacer que los documentos sean más utilizables por programas de lectura que ayudan a los usuarios con discapacidad visual.
  • Preservación de documentos y periódicos históricos, al mismo tiempo que se pueden buscar.
  • Extracción de datos y transferencia a programas contables (Ejemplo: Recibos y facturas).
  • Indexación de documentos para su uso por los motores de búsqueda.
  • Reconocimiento de matrículas de conductor mediante un radar de tráfico y un software de cámara de semáforo en rojo.
  • Sintetizadores de voz para personas que no pueden hablar: el físico teórico Stephen Hawking es quizás el usuario más conocido de un programa de sintetizador de voz.

¿Por qué utilizar OCR?

¿Por qué no simplemente tomar una foto, verdad? Porque no podría editar nada o buscar el texto porque solo sería una imagen. Escanear el documento y ejecutar OCR software puede convertir ese archivo en algo que pueda editar y poder buscar.

Historia de OCR

Si bien el uso más temprano del reconocimiento de texto data de 1914, comenzó el desarrollo y uso generalizados de tecnologías relacionadas con OCR. en serio en la década de 1950, específicamente con la creación de fuentes muy simplificadas que eran más fáciles de convertir a legibles digitalmente texto. La primera de estas fuentes simplificadas fue creada por David Shepard y comúnmente conocida como OCR-7B. OCR-7B todavía se utiliza hoy en día en la industria financiera para la fuente estándar utilizada en tarjetas de crédito y débito. En la década de 1960, los servicios postales de varios países comenzaron a utilizar la tecnología OCR para acelerar enormemente la clasificación del correo, incluidos Estados Unidos, Gran Bretaña, Canadá y Alemania. El OCR sigue siendo la tecnología principal que se utiliza para clasificar el correo de los servicios postales en todo el mundo. En 2000, se utilizó el conocimiento clave de los límites y capacidades de la tecnología OCR para desarrollar el Programas CAPTCHA utilizado para detener bots y spammers.

A lo largo de las décadas, el OCR se ha vuelto más preciso y sofisticado debido a los avances en áreas tecnológicas relacionadas, como inteligencia artificial, aprendizaje automáticoy visión artificial. Hoy en día, el software OCR utiliza el reconocimiento de patrones, la detección de funciones y la minería de texto para transformar documentos de forma más rápida y precisa que nunca.

Preguntas más frecuentes

  • ¿Cómo escaneo documentos con mi teléfono o tableta?

    En iOS, abra la aplicación Notas y cree una nueva nota. Abra la cámara y luego toque Escanear documentos. En Android, abra Google Drive y seleccione el Más (+), luego toque Escanear para escanea el documento con tu teléfono.

  • ¿Cómo utilizo OCR en Adobe Acrobat?

    Abra un archivo PDF que contenga una imagen escaneada, luego seleccione Instrumentos > Editar PDF. Acrobat aplicará automáticamente OCR para que pueda editar el texto. Simplemente seleccione dónde desea realizar las modificaciones y comience a escribir.

  • ¿Cuál es la diferencia entre OCR y OMR?

    El reconocimiento óptico de marcas (OMR) es un software que detecta marcas en el papel, normalmente una hoja de burbujas. OMR se utiliza para procesar los resultados de exámenes, encuestas, cuestionarios e incluso elecciones. A diferencia de OCR, OMR no puede descifrar las marcas en la página, solo verificar que las marcas estén allí.