| Casa | Hardware | Redes | Programación | software | Criticar | Sistemas |   
software  
  • Adobe Illustrator

  • Software de Animación

  • Antivirus Software

  • Software Audio

  • Copia de seguridad de datos

  • Grabar CDs

  • Grabar DVDs

  • compresión de datos

  • Software de base de datos

  • edición

  • desktop Video

  • Software de vídeo digital

  • Drupal

  • Software Educativo

  • Ingeniería del Software

  • Tipos de extensiones de archivos

  • Software financiero

  • Freeware , Shareware y Abandonware

  • GIMP

  • Graphics Software

  • Software Home Recording

  • Microsoft Access

  • Microsoft Excel

  • Microsoft Publisher

  • Microsoft Word

  • Código abierto

  • Otro Software Informática

  • Juegos de PC

  • Photoshop

  • Formato de Documento Portátil

  • PowerPoint

  • Software para presentaciones

  • Software de Productividad

  • Quicktime

  • Gestión de Escritorio remoto

  • SQL Server

  • Skype

  • Software versiones beta

  • Consultores de Software

  • Las compañías de desarrollo de software

  • Licencias de software

  • Hojas de cálculo

  • Impuestos-Preparación de Software

  • Software de utilidades

  • Web Clip Art

  • Windows Media Player

  • Software de Procesamiento de Texto
  •  
    Conocimientos Informáticos >> software >> Software de base de datos >> Content
    Datos Teorías de limpieza
    se pueden cometer errores durante la recolección e integración de datos , y los analistas necesitan saber cómo identificar y corregir estos errores. Esto se denomina depuración de los datos , o de la depuración de datos . Esto no es una ciencia exacta , y, a veces la decisión de qué hacer se basa en el juicio del analista , sin embargo , sabe que no sólo es importante contar con una cantidad suficiente de datos - debe ser de una calidad de buena reputación , también . Semántica y formato

    Una tarea común de limpieza de datos implica la eliminación de errores en el formateo. Esto podría ser algo tan simple como faltas de ortografía hechos durante la recolección o entrada de datos, hasta problemas con el símbolo que se utiliza para separar las entradas . Por ejemplo , imagine la siguiente pieza de información está dentro de un conjunto de datos en un apóstrofe se utiliza para separar las entradas : Club'42 Beacon Street'Boston


    Bird Watchers " Esto se lee como :

    Bird WatchersClub42 Beacon StreetBoston

    consultas y programas automatizados a menudo se utilizan para limpiar los datos de este error.
    Integración

    Algunos conjuntos de datos son bien solo, pero se vuelven problemáticos una vez que se integran en un repositorio más grande o un almacén de datos . Por ejemplo , la edad se puede almacenar como fecha de nacimiento:

    dd /mm /YYMM /dd /aaaa

    o por rango :

    20-30, 30-40 , 40-5015-25 , 25-35 , 35-45

    En algunos casos, como el formato de fecha de nacimiento, que es bastante fácil de identificar las estructuras semánticas y estandarizar las entradas. En casos como los rangos de edad , sin embargo , hay que hacer hipótesis . Por ejemplo , es el número de personas de 25-35 el promedio de las personas de 20-30 y 30-40 años de edad

    Outliers

    Outliers son ? puntos de datos que se encuentran muy lejos de el resto de los datos . Por ejemplo, una edad de 600 , o una puntuación de la prueba varias veces superior a la media . En el primer caso , se puede asumir con seguridad que era un error , pero en el segundo no es tan obvio. Cuando usted no sabe si una de las demás es un error o un punto de datos legítima , es su juicio si retirar o no, teniendo en cuenta la finalidad de los datos.
    Faltan datos

    También debe decidir qué hacer si algún dato falta . En primer lugar , los patrones deben ser identificados mediante consultas y análisis estadísticos - la distribución de los datos que faltan determina lo que debe hacer . Por ejemplo, si una encuesta en línea tiene dos páginas, pero sólo fueron contestadas las preguntas en la primera página, esta información puede ser utilizada para ayudar a refinar las formas . Si los datos faltantes se distribuyen al azar y se encuentra en la misma variable , a veces es posible hacer estimaciones sobre la base de lo que ya se conoce.

    Previous :

    next :
      Artículos relacionados
    ·Cómo insertar datos del formulario en una tabla en Acc…
    ·Tipos de columna de GridView 
    ·Cómo hacer un PL /SQL paquete Oracle 
    ·Cómo aprender SQL une 
    ·¿Qué es una base de datos DB2 
    ·Cómo entrar en la Fecha de SQL 
    ·¿Cómo puedo bloquear la estructura de la tabla de bas…
    ·Cómo eliminar paquetes SSIS desde el servidor 
    ·¿Qué es un servidor de Sequel 
    ·Cómo determinar si existe una clave principal 
      Artículos destacados
    ·Cómo crear listas desplegables en Word 2010 
    ·Animación y Efectos Especiales Software 
    ·Cómo incluir campos en blanco en una consulta de Micro…
    ·Cómo deshabilitar Dell Support Center y Quick Set 
    ·Cómo encontrar a la población dentro de una milla de …
    ·¿Cómo hacer Pin letras ligeras en Photoshop 
    ·Problemas con PowerPoint 2007 
    ·Cómo comprobar el historial de mensajes de Skype 
    ·Cómo ordenar por color de celda en Excel 2003 
    ·Cómo establecer o cambiar la clave principal de una ba…
    Copyright © Conocimientos Informáticos http://ordenador.wingwit.com