| Casa | Hardware | Redes | Programación | software | Criticar | Sistemas |   
Programación  
  • C /C + + Programming

  • Lenguajes De Programación

  • Delphi Programación

  • Programación Java

  • JavaScript Programación

  • Programación PHP /MySQL

  • Perl Programming

  • Python Programming

  • Rubí Programación

  • Visual Basics Programación
  •  
    Conocimientos Informáticos >> Programación >> Python Programming >> Content
    Cómo utilizar Html5lib en Python
    El lenguaje de programación Python puede soportar 5 sitios web HTML usando la biblioteca Html5lib . Esta biblioteca le permite escribir scripts de Python que analizan HTML 5 páginas con una estructura de árbol . Estructuras de árbol son vistas jerárquicas de elementos de la página web. Acceso a elementos de la página web se realiza usando un andador árbol. El árbol walker ' camina ' a ​​lo largo de las conexiones de los nodos del árbol , y pueden recorrer todo el árbol. Usted puede utilizar Python con ' Html5lib ' para abrir , ver e imprimir una página web HTML 5 . Cosas que necesitará
    Python 3.2 lenguaje de programación con el módulo Html5lib
    Mostrar más instrucciones
    1

    Abra el editor de texto IDLE en Archivos de programa ( o aplicaciones para Macintosh ) en el directorio de Python. Se abrirá un archivo de código fuente en blanco
    2

    Importación del módulo " Html5lib " por escrito las siguientes declaraciones en la parte superior del archivo de código fuente: .

    Importación html5lib
    < p > de treebuilders importación html5lib , treewalkers , serializador

    importación urllib2
    3

    Crear un nuevo analizador de HTML 5 , que va a utilizar para leer una página web HTML. Declarar un nuevo analizador escribiendo lo siguiente:

    parser = html5lib.HTMLParser ()
    4

    Abra una página web pasando su nombre en la función urllib2.urlopen . Por ejemplo, si desea abrir " www.website_adddress.com ", escriben lo siguiente: .

    URL = urllib2.urlopen ( " http://www.website_address.com ") read () < br > página 5

    Pase el sitio web en el HTML 5 parser para recibir una representación de árbol . Guardar esta representación en una variable llamada " árbol " por escrito la siguiente declaración :

    árbol = parser.parse (URL )
    6

    Crear un walker árbol como este :

    TreeWalker = treewalkers.getTreeWalker ( " libertad ")
    7

    Paseo por el árbol usando el andador árbol. El walker árbol devolverá un flujo de información que descubre en la página web HTML 5 . Caminar a través del árbol , escriba lo siguiente:
    stream

    = TreeWalker ( árbol)
    8

    serializar la corriente para que pueda fácilmente la salida a la consola . Usted puede serializar el flujo usando las siguientes dos declaraciones :

    serie = serializer.htmlserializer.HTMLSerializer ( omit_optional_tags = False )
    salida

    = serial.serialize (corriente ) baratos en 9

    Iterar a través de la producción en serie de la corriente así:

    para el elemento de salida :
    10

    sangría de la línea inmediatamente después de la declaración anterior y escribir una función de impresión , como esto:

    impresión (elemento)
    11

    Ejecute el programa presionando F5. La secuencia de comandos se abrirá a continuación, analizar una página web HTML 5 . La secuencia de comandos serializa la estructura de árbol de la página y la envía a la consola. La producción variará en función de la página web seleccionada , pero puede ser algo como esto :



    < /head>


    Bienvenido a una página web!

    < /body>

    < /html>


    Previous :

    next :
      Artículos relacionados
    ·Cómo reemplazar Espacio en blanco con Python Regex 
    ·Cómo secar lenteja de agua 
    ·Cómo seleccionar los mensajes de texto en MFC 
    ·Cómo cambiar la base en Python 
    ·Cómo hacer una copia de un objeto con Python 
    ·Cómo utilizar los archivos de cabecera en Python 
    ·Cómo crear una expresión regular en Python 
    ·Cómo hacer un bucle de repetición en Python 
    ·Cómo convertir archivos Py PYC 
    ·Cómo anexar una matriz en Python 
      Artículos destacados
    ·Cómo empezar a escribir programas de ordenador 
    ·Cómo vincular ListBox de DataGrid 
    ·Cómo contar en una línea individual en Python 
    ·Cómo depurar Reinicia Python 
    ·Cómo Enviar FIFO de salida a un archivo 
    ·Cómo conseguir un filtro de paso de banda para trabaja…
    ·Cómo crear un mensaje de varias líneas en Vb.Net 
    ·Cómo instalar DBD -MySQL para PPM 
    ·Cómo agregar notas al pie y notas al final con Microso…
    ·¿Por qué no MySQL por defecto a UTF - 8 
    Copyright © Conocimientos Informáticos http://ordenador.wingwit.com