raspado y análisis son dos prácticas de extracción de datos web estrechamente relacionados . El más general , el análisis , se refiere a la separación de los datos en sus partes constituyentes . Cuando el maestro de escuela intermedia Inglés , usted solicitó a penas diagrama , que estaba al analizar las palabras de esas frases para sus partes de la oración . Raspar más específicamente se refiere a analizar las páginas web para determinados tipos de datos, en este caso, las direcciones . El lenguaje de programación Python y la extensión " BeautifulSoup " permiten al usuario para raspar y analiza sitios en unas pocas líneas de código. Cosas que necesitará
Python 2.6 o superior
BeautifulSoup 3.2
Ver Más instrucciones
1
Instalar BeautifulSoup mediante la descarga de la última versión del software de mala muerte y untar /unzip el archivo . Abra una ventana de terminal y escriba el siguiente comando: My- iMac: ~ me $ python setup.py install Downloads/BeautifulSoup-3.2.0/python
Esto le dice al intérprete de Python para ejecutar el script de instalación BeautifulSoup que pueden se encuentran en la carpeta BeautfulSoup , que está en la carpeta Descargas
2
Tipo de Python en el indicador , pulsar Intro e importación BeautifulSoup : . My- iMac: ~ me $ python >>> import BeautifulSoup
3
Ejecute el siguiente script para abrir una página web e imprimir los localizadores de recursos universales ( direcciones web ) que puede encontrar en la página : >>> import urllib2 >> ; > page = urllib2.urlopen ( "URL http://www.THE QUIERES RASPE HERE" ) >>> sopa = BeautifulSoup (página ) >>> soup.findAll ('a ' ) >>> soup.strip print () >>> guión PRINTTHIS se abrirá una página web, analizar el HTML , busque la etiqueta en la que se incrustan direcciones web , eliminar las etiquetas y dejar el texto.