| Casa | Hardware | Redes | Programación | software | Criticar | Sistemas |   
Programación  
  • C /C + + Programming

  • Lenguajes De Programación

  • Delphi Programación

  • Programación Java

  • JavaScript Programación

  • Programación PHP /MySQL

  • Perl Programming

  • Python Programming

  • Rubí Programación

  • Visual Basics Programación
  •  
    Conocimientos Informáticos >> Programación >> Python Programming >> Content
    Cómo Raspe y analizar direcciones
    raspado y análisis son dos prácticas de extracción de datos web estrechamente relacionados . El más general , el análisis , se refiere a la separación de los datos en sus partes constituyentes . Cuando el maestro de escuela intermedia Inglés , usted solicitó a penas diagrama , que estaba al analizar las palabras de esas frases para sus partes de la oración . Raspar más específicamente se refiere a analizar las páginas web para determinados tipos de datos, en este caso, las direcciones . El lenguaje de programación Python y la extensión " BeautifulSoup " permiten al usuario para raspar y analiza sitios en unas pocas líneas de código. Cosas que necesitará
    Python 2.6 o superior
    BeautifulSoup 3.2
    Ver Más instrucciones
    1

    Instalar BeautifulSoup mediante la descarga de la última versión del software de mala muerte y untar /unzip el archivo . Abra una ventana de terminal y escriba el siguiente comando: My- iMac: ~ me $ python setup.py install Downloads/BeautifulSoup-3.2.0/python

    Esto le dice al intérprete de Python para ejecutar el script de instalación BeautifulSoup que pueden se encuentran en la carpeta BeautfulSoup , que está en la carpeta Descargas
    2

    Tipo de Python en el indicador , pulsar Intro e importación BeautifulSoup : . My- iMac: ~ me $ python >>> import BeautifulSoup
    3

    Ejecute el siguiente script para abrir una página web e imprimir los localizadores de recursos universales ( direcciones web ) que puede encontrar en la página : >>> import urllib2 >> ; > page = urllib2.urlopen ( "URL http://www.THE QUIERES RASPE HERE" ) >>> sopa = BeautifulSoup (página ) >>> soup.findAll ('a ' ) >>> soup.strip print () >>> guión PRINTTHIS se abrirá una página web, analizar el HTML , busque la etiqueta en la que se incrustan direcciones web , eliminar las etiquetas y dejar el texto.

    Previous :

    next :
      Artículos relacionados
    ·Cómo establecer variables de entorno Python 
    ·Python Función Propiedad 
    ·Cómo integrar una función se traza en Python 
    ·Cómo instalar PyLab en Python 
    ·Cómo utilizar los archivos de cabecera en Python 
    ·Cómo dibujar una línea recta en Python Turtle 
    ·Cómo utilizar Html5lib en Python 
    ·Cómo compilar Python 
    ·Cómo quitar un guión en Python 
    ·Cómo combinar una matriz en Python 
      Artículos destacados
    ·Cómo programar ecuaciones cuadráticas de Visual Basic…
    ·Cómo establecer el ancho de una columna de GridView 
    ·Cómo utilizar un DBLink para Oracle Lock Servicios 
    ·El mejor control de versiones para Linux Sub 
    ·Cómo saber si una columna está oculta en VBA 
    ·Cómo utilizar Xerces en Eclipse 
    ·Herramientas para encontrar una pérdida de memoria 
    ·Cómo utilizar un archivo DLL en VB.NET 
    ·Cómo crear un archivo JPEG utilizando Visual Basic 201…
    ·Cómo convertir una cadena PHP Fecha 
    Copyright © Conocimientos Informáticos http://ordenador.wingwit.com