herramientas de minería de datos de almacenamiento de datos y que sea fácil de extraer y analizar grandes volúmenes de información, pero la calidad de los análisis sólo es tan buena como la calidad de los datos. El primer paso en cualquier investigación o proyecto de almacenamiento de datos debe ser una evaluación de la calidad de los datos que entran en el proyecto. Medidas para la integridad, validez y consistencia de todos los factores en esta evaluación . Desarrollar indicadores de calidad de datos , debe seguir ciertos pasos. Instrucciones
1
Desarrollar un marco para medir la calidad de los datos. Crear espacio en cada base de datos donde se pueden almacenar los resultados de los controles de calidad . Elaborar informes o cuadros de mando de estos datos.
2
Medida integridad de los datos . Elija los elementos clave en cada base de datos y contar el porcentaje de valores nulos , los campos vacíos o valores que representan datos no disponibles o desconocidas .
3
porcentajes medida de los valores permitidos. Cuando un campo tiene un número de valores de códigos predefinidos , medir la distribución de estos valores contra el número de valores incorrectos y desaparecidos . Analizar estas distribuciones para determinar si ciertos códigos aparecen con demasiada frecuencia. Si es así , puede necesitar ser subdividido para proporcionar una mejor descripción de este valor . Por ejemplo, si las respuestas son de color negro , blanco y color y el 98% de las respuestas son el color, podría tener sentido para reemplazar el color de rojo , azul o verde.
4
Comprobar si los valores razonables . Mediciones numéricas suelen aparecer dentro de un rango permisible. Por ejemplo , una temperatura de tiempo de medición diaria Fahrenheit aparecerá normalmente como un valor de aproximadamente -40 a 120. Cualquier valor fuera de ese rango probablemente no es válida.
5
Comparar los valores dentro del mismo registro de coherencia . Si la temperatura era de 90 grados Fahrenheit y el valor de precipitación de nieve , uno de los dos valores es probablemente incorrecta .
6
descubre la coherencia entre los registros relacionados. Utilice los controles de consistencia similares entre los registros de las relaciones entre padres e hijos y dentro de múltiples entradas secundarias . Los padres y las relaciones del niño son los vínculos entre los elementos de base de datos . Por ejemplo, en una serie de artículos relacionados con el tiempo , si un conjunto de mediciones de temperatura por hora listado temperatura constante aumento de 50 a 70 grados durante toda la mañana , pero los 10 estoy leyendo es de -20 , este valor es probablemente un error.
Página 7
Crear informes, cuadros de mando o notificaciones en base a los datos recogidos. Resumir por grupo, proveedor o cliente tipo de organización con las capacidades para profundizar en los elementos de datos específicos. Analizar los datos para determinar dónde se producen los errores y lo que se puede hacer para mejorar la calidad de los datos .
8
Mejorar la calidad de los datos . Revisar las reglas de negocio , software de reparación para rechazar los malos datos , notificar a los clientes de los problemas de datos y encontrar maneras de recompensar las iniciativas de calidad . Monitor de estas mediciones en el tiempo.