Una araña web es una aplicación informática que descarga una página web, y luego sigue todos los enlaces en esa página y las descarga también. Arañas Web se utilizan para almacenar páginas web para leer en línea , o para el almacenamiento de páginas web en las bases de datos que va a utilizar un motor de búsqueda . Creación de una araña web es una tarea difícil , apto para una clase de programación de nivel universitario. Estas instrucciones asumen que usted tiene experiencia en programación sólido, pero sin conocimiento de la arquitectura de araña. Los pasos trazan una arquitectura muy específica para escribir una araña web en el idioma elegido. Cosas que necesitará
navegador Web que responde a los comandos de programación
Lenguaje de programación con acceso al disco de lectura y escritura y las funciones de base de datos
Mostrar más instrucciones
1
inicializar programa con la página web inicial que desea descargar . Agregue la dirección URL de la página a una nueva tabla de base de datos de URLs.
2
Enviar un comando al explorador web instruir a recoger esta página web, y guardarlo en un disco. Mueva el puntero base de datos a un paso más allá de la URL que acaba de descargar , que ahora se apuntan a la final de la tabla .
3
Leer la página web en el programa, y analizar por enlaces a páginas Web adicionales . Esto suele hacerse mediante la búsqueda de la cadena de texto "http://", y capturar el texto entre esta cadena y un carácter de terminación (por ejemplo, "", " . " O ">") . Agrega estos enlaces a la tabla de base de datos URL , el puntero de base de datos debe permanecer en la cima de esta nueva lista
4
prueba las entradas de la tabla de base de datos para la singularidad , y eliminar cualquier URL que aparece más de una vez . .
5
Si desea aplicar un filtro de URL ( por ejemplo, para evitar la descarga de páginas de sitios en diferentes dominios ) , se aplica ahora a la tabla de base de datos URL y eliminar cualquier URL que no desea para descargar .
6
Configurar un bucle de programación para su araña vuelve a la etapa 2. Esto forma recursiva descargar todas las URL se encuentra con su araña . Extracción de URL duplicadas asegura que la araña finalizará correctamente cuando se llega a la última dirección URL única .