Apache Droids
Apache Droids es un proyecto de la Apache Software Foundation, actualmente en estado de incubación, que se dedica a la creación de un framework para la definición de web crawlers. Estos robots para la búsqueda de información en línea se construyen por medio de elementos genéricos tales como:
- Colas
- Protocolos
- Analizadores sintácticos empleando Apache Tika.
- Handlers
Características
- Adaptabilidad. Completo control por medio de archivos de propiedades.[1]
- Multihilo. Un robot controla a varios "trabajadores" (hilos) que realizan la labor real.
- Respeto de robots.txt. Por defecto, Droids respeta las directrices de robot.txt.
- Limitación de recursos. Es posible configurar el número de hilos concurrentes que un robot pueda distribuir entre sus "trabajadores", así como el tiempo de retardo entre las peticiones.
- Dinámica basada en Spring Framework. Las propiedades mencionadas son inyectadas a la configuración Spring.
- Dinámica extendible. La configuración Spring emplea el configurador de Apache Cocoon y su registro dinámico, facilitando así la extensión de los robots.
Referencias
- Lista de características planificadas (en inglés)
Véase también
- Apache Nutch, software de búsquedas en web
- Páginas sobre Web Robots
- Sobre la programación de WebCrawler
- Programación de una araña web en Java
- Un ejemplo del el uso de Google Guice para la inyección de dependencias en el caso de Apache Droids
Este artículo ha sido escrito por Wikipedia. El texto está disponible bajo la licencia Creative Commons - Atribución - CompartirIgual. Pueden aplicarse cláusulas adicionales a los archivos multimedia.