Los motores de búsqueda , como Google o Yahoo! , tire de las páginas web en sus resultados de búsqueda mediante el uso de robots de Web (también a veces llamado arañas o crawlers ) , que son programas que exploran el Internet y sitios web de índices en una base de datos. Bots Web pueden hacer uso de los lenguajes de programación , incluyendo C , Perl , Python y PHP, todo lo cual permiten a los ingenieros de software para escribir scripts que llevan a cabo tareas de procedimiento , como la exploración Web y la indexación . Instrucciones
1
Abra una aplicación de edición de texto sin formato , como el Bloc de notas , que se incluye con Microsoft Windows o TextEdit de Mac OS X, en la que se autor de una aplicación Web bot Python.
< Br > 2
Iniciar la secuencia de comandos Python mediante la inclusión de las siguientes líneas de código , y la sustitución de la dirección URL de ejemplo con la dirección URL del sitio web que desea analizar y el nombre de la base de datos de ejemplo, con la base de datos que se almacena los resultados :
importación urllib2 , re, stringenter_point = ' http://www.exampleurl.com ' nombre_bd = ' example.sql '
3
incluye las siguientes líneas de código a definir la secuencia de operaciones que el bot web seguirá :
def uniq ( ss ) : set = { } mapa ( set.__setitem__ , SEC , []) set.keys retorno ()
< br > 4
obtener las direcciones URL en la estructura de la página web mediante el uso de las siguientes líneas de código:
definición geturls ( url ) : items = [ ] request = urllib2.Request ( url ) request.add.header ( 'Usuario ', ' Bot_name ;) ) content = urllib2.urlopen ( petición). read () items = re.findall ( " href = " http://. ? " ' , contenido) urls = [ ] regreso urls
5
Definir la base de datos que el bot web usará y especificar qué tipo de información se debe guardar para terminar haciendo que el bot web:
db = open ( nombre_bd , 'a') allurls = uniq ( geturls ( enter_point ) )
6
Guardar el documento de texto y subirlo a un servidor o un ordenador con conexión a internet donde se puede ejecutar el script y comenzar a escanear páginas web.