Los datos se pueden dañar en cualquier número de formas , de los errores de entrada de usuario a las inconsistencias de formato. Los duplicados son uno de los problemas más comunes de datos en bases de datos de la mayoría de las empresas. La mejor manera de asegurar la precisión de los datos es para prevenir la corrupción , pero es bueno tener un plan para hacer frente a los problemas de datos que surjan problemas . Duplicación
duplicados puede ser algo frustrante ver como auditor de datos. A menudo, una pantalla de datos front-end no puede atrapar ciertos tipos de duplicados , por ejemplo , en una tabla de direcciones , 123 Main Street y la 123 Main St. puede aparecer como dos direcciones distintas , cuando en realidad son la misma dirección < . br>
Esto se puede resolver utilizando uno de dos métodos : Los datos de la eliminación o corrección de datos . La eliminación de datos significaría eliminar todas menos una instancia de un conjunto de duplicados , mientras que la corrección de datos sería actualizar todas las instancias de la duplicación de un solo valor acordado . Los paquetes de software disponibles que utiliza un algoritmo para identificar valores atípicos basados en desviaciones estándar , grupos u otros criterios , a continuación, los valores extremos son evaluados por un experto en la materia que determina el destino de la entrada inesperada .
Extract , Transform , Load
extraer, transformar , cargar, o ETF , es un método comúnmente utilizado para mover y limpiar los datos . Mientras no se produzca la limpieza manual, hay tareas automatizadas en la fase de traducción. Por ejemplo , si el origen de las tiendas de la tabla " M " y "F " y la tabla de destino almacena "macho " y "hembra ", un script se ejecuta para traducir los datos a los nuevos valores .
Vez que los datos se limpia y se valida , se puede importar a la tabla de destino . También puede ser importado a través de los datos antiguos para escribir sobre los datos . Esto funciona bien cuando una columna completa de los datos en una tabla necesita ser cambiado .
Actualización de los sistemas de legado
La actualización de un sistema heredado típicamente consiste en mover los datos a una posición intermedia , o área de ensayo , en el que a continuación se somete a un sistema automatizado , así como datos manuales limpieza ronda. Esto se hace para evitar cometer errores irreversibles a los datos existentes antes de importarlos en el nuevo sistema. Cabe señalar que los datos antiguos no deben ser actualizado , de acuerdo a la información - management.com , con el fin de evitar el mantenimiento de dos conjuntos de datos separados . Cabe retiró lugar y el nuevo sistema debe ser el único en uso en el futuro.