? Reconocimiento óptico de caracteres (OCR ) es una técnica de introducción de datos que utiliza un tipo de fuente específica y un escáner OCR para leer el juego de caracteres y enviarlo al equipo. El Instituto Americano de Estándares Nacionales , o ANSI , define el tipo de fuente como un conjunto de caracteres de 0 a 9 , de A a Z, y algunos caracteres especiales , cada uno con un tamaño y una forma definida . Fuentes OCR son reproducibles , y los seres humanos y los escáneres OCR pueden leer y distinguirlos. Categorías
escáneres OCR son o bien la entrada de texto o escáneres de captura de datos . Escáneres de introducción de texto leer el documento completo, o al menos una gran parte de ella. La entrada de datos puede ser alimentado a mano o el escáner puede tener la alimentación automática de datos, la lectura , la clasificación y apilado capacidades. Cuando se utiliza un escáner de entrada de texto , la edición se lleva a cabo ya sea durante o después de la digitalización . Captura de datos escáneres captura y datos de formato durante el proceso de escaneo y sin edición humana de los datos se lleva a cabo . Debido a esto , los escáneres de captura de datos debe ser más precisa.
Tipos
tipos de escáner
puede ser fija o portátil . Escáneres estacionarios , como plataforma, con alimentación de hojas y escáneres de tambor utilizan, sobre todo la entrada de texto para leer , procesar y almacenar los datos de imágenes en su ordenador, desde donde puede editar o formatear lo contrario el texto digitalizado. Escáneres de mano , tales como bolígrafos digitales o escáneres de códigos de barras , utilizar la entrada de texto o de captura de datos para leer y procesar la información de datos y almacenarla para su posterior edición , o los datos de " bloqueo " para evitar su edición.
Métodos
en pocas palabras, un escáner OCR toma una fotografía del documento y el software del escáner OCR examina la fuente OCR del cuadro contiene , y después lee y lo convierte en texto utilizando un Matching Matrix o el método de extracción de características . Tabla de correspondencias es una forma de patrón de coincidencia donde el escáner mira a un personaje y lo compara con uno en su biblioteca de caracteres o plantillas de caracteres . Extracción de características no se basa en una biblioteca predefinida , pero en las características generales tales como áreas abiertas , las formas cerradas , y las líneas de intersección al descifrar caracteres . Extracción de características también se conoce con el nombre de reconocimiento inteligente de caracteres , o ICR .
Beneficios
El beneficio más importante de la utilización de un escáner OCR es la eliminación de los errores de entrada de datos humanos . Escáneres OCR leer los datos en velocidades que pueden alcanzar más de 200 caracteres por segundo . La tasa de precisión de un escáner OCR es 99,9975 por ciento , o una lectura errónea de caracteres en 40.000 , en comparación con una tasa de lectura errónea humana de uno de cada 300 caracteres . Automatic comprobar la validación dígito puede reducir la tasa de precisión del OCR , a menos de una de cada 3.000.000 .
Consideraciones
originales de baja calidad se traducirá en documentos OCR menos precisos. Los documentos manuscritos , documentos que contienen texto con estilo , los documentos más antiguos , fotocopias y documentos más enviadas por fax no funcionan bien con los escáneres OCR. Recomendaciones para los documentos aceptables incluyen texto impreso en un tamaño de fuente de menos de 72 puntos , texto impresora láser y tinta , documentos de fax con 200 puntos por pulgada ( dpi) o mayor resolución y materiales impresos comercialmente, tales como libros , folletos y revistas.