Araña web

Solo disponible en BuenasTareas
  • Páginas : 5 (1233 palabras )
  • Descarga(s) : 0
  • Publicado : 23 de mayo de 2011
Leer documento completo
Vista previa del texto
Una araña web (o araña de la web) es un programa que inspecciona las páginas del World Wide Web de forma metódica y automatizada. Uno de los usos más frecuentes que se les da consiste en crear una copia de todas las páginas web visitadas para su procesado posterior por un motor de búsqueda que indexa las páginas proporcionando un sistema de búsquedas rápido. Las arañas web suelen ser bots (eltipo más usado de éstos).
Las arañas web comienzan visitando una lista de URLs, identifica los hiperenlaces en dichas páginas y los añade a la lista de URLs a visitar de manera recurrente de acuerdo a determinado conjunto de reglas. La operación normal es que se le da al programa un grupo de direcciones iniciales, la araña descarga estas direcciones, analiza las páginas y busca enlaces a páginasnuevas. Luego descarga estas páginas nuevas, analiza sus enlaces, y así sucesivamente.
Entre las tareas más comunes de las arañas de la web tenemos:
* Crear el índice de una máquina de búsqueda.
* Analizar los enlaces de un sitio para buscar links rotos.
* Recolectar información de un cierto tipo, como precios de productos para recopilar un catálogo.

WORM son las siglas en ingléscorrespondientes a Write Once Read Many, es decir, escritura única lectura múltiple. Esta denominación se concede a medios de almacenamiento (generalmente extraíbles) que tienen esta propiedad: los datos escritos ya no pueden ser borrados o sobre-escritos posteriormente.
[editar] Utilidad
La importancia de los medios WORM es que garantizan la integridad y conservación de la información allíguardada. Se utiliza en infraestructuras de gestión documental por medios electrónicos. Puede almacenar documentos con valor jurídico o aquellos sobre los que existe una imposición normativa con las garantías exigidas en las leyes.
[editar] Características
Los medios WORM suelen ser extraíbles, es decir, permanecen fuera de línea y deben ser montados en un dispositivo lector para acceder a sus datos.Por tanto, necesitan ser exhaustivamente etiquetados y catalogados.
Cuando es necesario destruir información de un disco WORM no hay más remedio que destruirlo físicamente. Pero antes, es necesario copiar en otros medios aquellos datos que se encuentran en el mismo medio pero no han de ser destruidos. La destrucción puede deberse a imperativo legal o por expiración del periodo legal mínimo deconservación.
El coste de los medios WORM es notablemente inferior a los medios en línea (disco duro) y ligeramente superior a los medios fuera de línea (cinta magnética). Éstos últimos no garantizan la integridad ni la conservación.
Apache Ant es una herramienta usada en programación para la realización de tareas mecánicas y repetitivas, normalmente durante la fase de compilación y construcción(build). Es, por tanto, un software para procesos de automatización de compilación, similar a Make pero desarrollado en lenguaje Java y requiere la plataforma Java, así que es más apropiado para la construcción de proyectos Java.
Esta herramienta, hecha en el lenguaje de programación Java, tiene la ventaja de no depender de las órdenes del shell de cada sistema operativo, sino que se basa enarchivos de configuración XML y clases Java para la realización de las distintas tareas, siendo idónea como solución multi-plataforma.
La diferencia más notable entre Ant y Make es que Ant utiliza XML para describir el proceso de generación y sus dependencias, mientras que Make utiliza formato makefile. Por defecto, el archivo XML se denomina build.xml.
Ant es un proyecto de la Apache SoftwareFoundation. Es software open source, y se lanza bajo la licencia Apache Software.
Para utilizar ANT basta con disponer de una distribución binaria de ANT y tener instalado la versión 1.4 o superior del JDK. La distribución binaria consiste en la siguiente estructura de directorios: La carpeta "ant" congiene las carpetas "bin" (que contiene scripts de lanzador, "lib" (que contiene las dependencias...
tracking img