Cómo Raspe y analizar direcciones

Programación

C /C + + Programming

Lenguajes De Programación

Delphi Programación

Programación Java

JavaScript Programación

Programación PHP /MySQL

Perl Programming

Python Programming

Rubí Programación

Visual Basics Programación

* Conocimientos Informáticos >> Programación >> Python Programming >> Content

Cómo Raspe y analizar direcciones

raspado y análisis son dos prácticas de extracción de datos web estrechamente relacionados . El más general , el análisis , se refiere a la separación de los datos en sus partes constituyentes . Cuando el maestro de escuela intermedia Inglés , usted solicitó a penas diagrama , que estaba al analizar las palabras de esas frases para sus partes de la oración . Raspar más específicamente se refiere a analizar las páginas web para determinados tipos de datos, en este caso, las direcciones . El lenguaje de programación Python y la extensión " BeautifulSoup " permiten al usuario para raspar y analiza sitios en unas pocas líneas de código. Cosas que necesitará
Python 2.6 o superior
BeautifulSoup 3.2
Ver Más instrucciones
1

Instalar BeautifulSoup mediante la descarga de la última versión del software de mala muerte y untar /unzip el archivo . Abra una ventana de terminal y escriba el siguiente comando: My- iMac: ~ me $ python setup.py install Downloads/BeautifulSoup-3.2.0/python

Esto le dice al intérprete de Python para ejecutar el script de instalación BeautifulSoup que pueden se encuentran en la carpeta BeautfulSoup , que está en la carpeta Descargas
2

Tipo de Python en el indicador , pulsar Intro e importación BeautifulSoup : . My- iMac: ~ me $ python >>> import BeautifulSoup
3

Ejecute el siguiente script para abrir una página web e imprimir los localizadores de recursos universales ( direcciones web ) que puede encontrar en la página : >>> import urllib2 >> ; > page = urllib2.urlopen ( "URL http://www.THE QUIERES RASPE HERE" ) >>> sopa = BeautifulSoup (página ) >>> soup.findAll ('a ' ) >>> soup.strip print () >>> guión PRINTTHIS se abrirá una página web, analizar el HTML , busque la etiqueta en la que se incrustan direcciones web , eliminar las etiquetas y dejar el texto.

Previous ： Cómo obtener Python para obtener una salida de imagen

next ： Cómo: Método para Pilón objetivo Montaje

Artículos relacionados

·	Cómo establecer variables de entorno Python
·	Python Función Propiedad
·	Cómo integrar una función se traza en Python
·	Cómo instalar PyLab en Python
·	Cómo utilizar los archivos de cabecera en Python
·	Cómo dibujar una línea recta en Python Turtle
·	Cómo utilizar Html5lib en Python
·	Cómo compilar Python
·	Cómo quitar un guión en Python
·	Cómo combinar una matriz en Python

Artículos destacados

·	Cómo programar ecuaciones cuadráticas de Visual Basic…
·	Cómo establecer el ancho de una columna de GridView
·	Cómo utilizar un DBLink para Oracle Lock Servicios
·	El mejor control de versiones para Linux Sub
·	Cómo saber si una columna está oculta en VBA
·	Cómo utilizar Xerces en Eclipse
·	Herramientas para encontrar una pérdida de memoria
·	Cómo utilizar un archivo DLL en VB.NET
·	Cómo crear un archivo JPEG utilizando Visual Basic 201…
·	Cómo convertir una cadena PHP Fecha