Al analizar los datos , no sólo es necesario contar con una cantidad lo suficientemente grande, pero también es importante que la calidad de los datos es de un alto nivel. Los datos se pueden hacer "sucio" en un número de maneras - errores durante la recolección , los errores cometidos en la integración de múltiples conjuntos de datos y el borrado accidental son sólo algunos de esos aspectos. Debido a esto , es importante que los datos se limpia antes de su uso . Falta de datos