El lenguaje de programación Python puede soportar 5 sitios web HTML usando la biblioteca Html5lib . Esta biblioteca le permite escribir scripts de Python que analizan HTML 5 páginas con una estructura de árbol . Estructuras de árbol son vistas jerárquicas de elementos de la página web. Acceso a elementos de la página web se realiza usando un andador árbol. El árbol walker ' camina ' a lo largo de las conexiones de los nodos del árbol , y pueden recorrer todo el árbol. Usted puede utilizar Python con ' Html5lib ' para abrir , ver e imprimir una página web HTML 5 . Cosas que necesitará
Python 3.2 lenguaje de programación con el módulo Html5lib
Mostrar más instrucciones
1
Abra el editor de texto IDLE en Archivos de programa ( o aplicaciones para Macintosh ) en el directorio de Python. Se abrirá un archivo de código fuente en blanco
2
Importación del módulo " Html5lib " por escrito las siguientes declaraciones en la parte superior del archivo de código fuente: .
Importación html5lib
< p > de treebuilders importación html5lib , treewalkers , serializador
importación urllib2
3
Crear un nuevo analizador de HTML 5 , que va a utilizar para leer una página web HTML. Declarar un nuevo analizador escribiendo lo siguiente:
parser = html5lib.HTMLParser ()
4
Abra una página web pasando su nombre en la función urllib2.urlopen . Por ejemplo, si desea abrir " www.website_adddress.com ", escriben lo siguiente: .
URL = urllib2.urlopen ( " http://www.website_address.com ") read () < br > página 5
Pase el sitio web en el HTML 5 parser para recibir una representación de árbol . Guardar esta representación en una variable llamada " árbol " por escrito la siguiente declaración :
árbol = parser.parse (URL )
6
Crear un walker árbol como este :
TreeWalker = treewalkers.getTreeWalker ( " libertad ")
7
Paseo por el árbol usando el andador árbol. El walker árbol devolverá un flujo de información que descubre en la página web HTML 5 . Caminar a través del árbol , escriba lo siguiente:
stream
= TreeWalker ( árbol)
8
serializar la corriente para que pueda fácilmente la salida a la consola . Usted puede serializar el flujo usando las siguientes dos declaraciones :
serie = serializer.htmlserializer.HTMLSerializer ( omit_optional_tags = False )
salida
= serial.serialize (corriente ) baratos en 9
Iterar a través de la producción en serie de la corriente así:
para el elemento de salida :
10
sangría de la línea inmediatamente después de la declaración anterior y escribir una función de impresión , como esto:
impresión (elemento)
11
Ejecute el programa presionando F5. La secuencia de comandos se abrirá a continuación, analizar una página web HTML 5 . La secuencia de comandos serializa la estructura de árbol de la página y la envía a la consola. La producción variará en función de la página web seleccionada , pero puede ser algo como esto :
< /head>
Bienvenido a una página web!
< /body>
< /html>