El Servicio Postal de los EE.UU. utiliza la tecnología de reconocimiento óptico de caracteres (OCR ) para leer las direcciones de piezas de correo . Para el correo pueda ser leído por un clasificador de correo OCR , sin embargo , las direcciones y las fuentes necesitan ser formateados de cierta manera. Software OCR es útil para convertir imágenes escaneadas de documentos mecanografiados o escritos a mano con capacidad de búsqueda de texto electrónico , pero tiene desventajas que limitan sus aplicaciones. Documentos Limited
OCR funciona mejor con buena calidad de los documentos mecanografiados. Los documentos manuscritos que no se pueden leer fácilmente por el software de OCR. Del mismo modo , las fuentes escritas que se asemejan a la escritura -, así como fuentes no latinas - crean muchos errores durante el proceso de OCR. Si el documento se contraste pobre , está arrugado o sucio, o el texto y el fondo son similares en la oscuridad , entonces OCR no se ejecute bien . OCR tiene dificultad con los documentos que tienen ambas imágenes y texto . Las hojas de cálculo también se producen más errores .
Precisión
Ningún software OCR es 100 por ciento exacta . El número de errores depende de la calidad y el tipo de documento , incluyendo la fuente utilizada . Los errores que se producen durante el OCR incluyen cartas mala interpretación , saltando sobre las letras que son ilegibles , o mezclando el texto de las columnas adyacentes o pies de fotos . Si se requiere una alta precisión - como ocurre con la conversión de los libros digitales a formato electrónico - y luego una limpieza del texto electrónico se necesitarán
soluciones temporales
< br . >
OCR tiene dificultades para diferenciar entre los personajes , como el número cero y la letra mayúscula " O" Para evitar esto, una fuente especial OCR se puede utilizar , como escribir cero. Sin embargo, esto sólo funciona para los documentos creados con OCR en cuenta , tales como los cuestionarios . Al crear cuestionarios que serán escritos a mano , los investigadores también utilizan cajas para cada letra.
Trabajo adicional
Incluso si la imagen escaneada del documento original es alta calidad , medidas adicionales deben ocurrir para limpiar el texto OCR. Es muy mano de obra intensiva para corregir los errores creados por OCR . Una persona tiene que comparar manualmente el documento original y el texto electrónico . Las personas también cometen errores al escribir el texto de un documento, pero a veces es más rápido para saltar el paso OCR.