| Casa | Hardware | Redes | Programación | software | Criticar | Sistemas |   
Programación  
  • C /C + + Programming

  • Lenguajes De Programación

  • Delphi Programación

  • Programación Java

  • JavaScript Programación

  • Programación PHP /MySQL

  • Perl Programming

  • Python Programming

  • Rubí Programación

  • Visual Basics Programación
  •  
    Conocimientos Informáticos >> Programación >> Python Programming >> Content
    La programación de una araña de correo electrónico en Python
    Los motores de búsqueda suelen utilizar algoritmos que toman información de las páginas web y los clasifican de acuerdo a la popularidad. Estos algoritmos son a menudo llamados "arañas ". Un programador Python puede aprender mucho acerca de la programación multihilo , expresiones regulares coincidencia de patrones y datos de la Web ir a buscar la creación de una araña. Puede iniciar una secuencia de comandos Python araña con poco más que las bibliotecas y el intérprete de Python incluidos. Cosas que necesitará
    Python intérprete
    Mostrar más instrucciones
    1

    Definir dos expresiones regulares para hacer coincidir las direcciones de correo electrónico e hipervínculos en el código de la página Web:

    importación urllibimport threadingimport re

    r = re.compile ( ' ( ? < href = \\ = \\ " mailto :) . * ? @ . * ? . [ \\ w ] {0,3 } ( ? = \\ ") ') # Mailsr1 = re.compile ( ' ( ? < href = \\ = \\ ") . * ? ( ? = \\ ") ') # Links
    2

    Definir un constructor de la clase que tiene una página web URL como argumento. El constructor tomará la URL como punto de partida , a continuación, comenzar la clase "Spider ", como un hilo separado :
    clase

    Spider ( threading.Thread ) : def __ init__ (self, dirección): self.url = addressthreading.Thread.__init__ (auto )
    3

    Definir el método "run" , que se ejecuta cada vez que se inicia un nuevo hilo de tipo " araña " . Este método procesa la página web con " urllib.urlopen " , tira de correos electrónicos de un código mediante el uso de la "r " de expresiones regulares y los almacena en un archivo de registro . A continuación, toma los hipervínculos y las descargas de la información de esa URL , comenzando un nuevo thread para procesar la página Web:

    def run ( self):
    fuente

    = urllib.urlopen ( self.url . ) read ( ) = mails (fuente ) mails r.findall = list ( set ( mails ) ) log = open (' log.txt ', ' a') for i in mails: si re.match ( "^ [ ,"! _.0 - 9a - z ] + @ ( . [ 0 - 9a - z] [ 0 - 9a - z ] + ) + [ az ] { 2,4 } $ ", i) = None: si ( i + '\\ n' ) no ( abiertas ( ' log.txt ', ' r') readlines (). ): print ' Guardado :', ilog.write ( i + '\\ n' ) cuenta + = 1log.close () urls = r1.findall (fuente ) de uRL en uRL : . Crawl ( url ) start ()
    4

    Ejecutar la clase araña llamando a un nuevo hilo de tipo " araña " y el suministro de con una URL :

    Spider ( " www.google.com " ) start ()

    .

    Previous :

    next :
      Artículos relacionados
    ·Cómo dividir cada cadena Carta en Python 
    ·¿Cómo hacer Concatenación de cadenas en Python 
    ·Cómo utilizar secuencias de comandos Python en el serv…
    ·Tutorial sobre controles de cadena en Python 
    ·Cómo extraer uso de la CPU con Python 
    ·Cómo crear un gráfico en Python 
    ·Cómo compilar un diccionario de los números en Python…
    ·Cómo quitar Cotizaciones en Python SQLite 
    ·Tutoriales de pantalla para Python 
    ·Cómo hacer una copia de un objeto con Python 
      Artículos destacados
    ·Cómo utilizar Python Math.Log Con Base 10 
    ·Cómo hacer una página web personalizable 
    ·Cómo cambiar el nombre de un archivo en Visual Basic 2…
    ·Cómo crear y utilizar un DataGrid 
    ·Los niveles de certificación Java 
    ·Cómo código en mayúsculas en VB.Net 
    ·Cómo editar en GridView 
    ·Cómo crear un applet de Java en Netbeans 
    ·Cómo diseñar un carro de compras 
    ·Cómo codificar una raíz cuadrada en HTML 
    Copyright © Conocimientos Informáticos http://ordenador.wingwit.com