Limpieza de datos - también conocida como la limpieza o lavado de datos - es el proceso de detección y corrección de errores, inconsistencias y omisiones en los datos. Se recogen enormes cantidades de datos y analizados por los políticos, los economistas y los científicos , pero los errores en los datos - que puede afectar a su proceso y las conclusiones extraídas de ella - son comunes y que se pueden esperar . Existen varios métodos de limpieza de datos , tanto tradicionales como en automático. Métodos
métodos estadísticos
estadísticos se pueden utilizar para auditar los datos y corregir errores de datos , incluso compleja. Un estadístico puede analizar la media, la desviación estándar y el rango de valores de datos y , al hacerlo así , identificar los registros de base de datos individuales ( tuplas ) que no son válidos . Estos registros pueden ser borrados o reemplazados por un valor estadístico medio u otro . Métodos estadísticos de limpieza de datos también pueden indicar los valores perdidos , que puede ser llenado con los valores posibles en función del resto del conjunto de datos.
Limpieza de datos Herramientas
Data herramientas de limpieza han existido durante varios años . Los datos automatizados de limpieza herramientas suelen centrarse en un dominio específico de base de datos - que define los posibles valores que se pueden introducir en cada campo o atributo - como el nombre y los datos de dirección . Por lo general utilizan un conjunto de reglas de coincidencia de una biblioteca , o suministrados interactivamente por el usuario, para validar los nombres de las calles , nombres de ciudades y códigos postales y transformar los datos existentes en elementos individuales, estándar. Utilizan registro coincidente para determinar si dos registros representan datos sobre el mismo tema y son capaces de combinar los individuos registros que tienen , por ejemplo, la misma dirección . Limpieza de datos herramientas pueden variar en el nivel de sofisticación en materia de auditoría de datos , la limpieza y la migración.
ETL Herramientas
ETL significa " Extract, Transform , Load " y hay muchas herramientas de software comerciales diseñadas para ayudar al proceso ETL de limpieza de datos . Las características más importantes de una herramienta ETL eficaz es su capacidad para leer los datos de origen directamente y para limpiar y transformar los datos , así como su apoyo a los metadatos . Los metadatos son la documentación o información sobre un elemento específico de datos y puede ayudar a un usuario para detectar errores e inconsistencias en los datos que pueden no necesariamente ser identificados por la propia herramienta ETL . Herramientas ETL suelen proporcionar una biblioteca de funciones y esquemas para la transformación de datos - conversiones de tipos de datos , funciones aritméticas, funciones de cadena , etc - y pueden extraer datos de fuentes de datos de forma libre , con algunas limitaciones , así como a través de ODBC estándar ( " Open Database Connectivity " ) y ( " Electronic Design Automation ") interfaces de EDA .