Harvesting

Páginas: 8 (1910 palabras) Publicado: 8 de marzo de 2013
ASPECTOS GENERALES API WEB-HARVEST



Resumen – El objetivo de este documento es dar a conocer las principales características y cualidades del API Web-Harvest. Dando énfasis a los principales elementos que son utilizados en la ejecución de los archivos de configuración. Se revisa un pequeño ejemplo, en el cual se explican los elementos que son utilizados y cuáles son los resultadosobtenidos.








I. introducción


W
EB-HARVEST es una herramienta para extracción de datos desde la web desarrollado en Java. Ofrece la oportunidad de recolectar datos desde páginas web para la obtención de información útil. Con el fin de obtener esto, establece técnicas y tecnologías para la manipulación de texto/XML tales como XLST, XQuery y Expresiones Regulares. Web-Harvest estácentrado principalmente en sitios Web HTML/XML ya que son en estos lenguajes en los que se basa el contenido de sitios web actualmente.
El proceso de extracción de datos desde páginas web se conoce como Web Data Mining. La Web, como una gran base de datos, contiene datos que se desean utilizar, el problema surge debido a que en la mayoría de los casos los datos que se necesitan se encuentranmezclados con el código fuente de los sitios, eso lo hace amigable para las personas, pero no hace amigable el contenido para la máquina. Los diseñadores habitualmente discuten sobre como separar el contenido con el estilo del sitio, utilizando diversos marcos y patrones de diseño para lograrlo.
Cada sitio y pagina web está diseñada siguiendo cierta estructura lógica. Esta es necesaria deposteriormente para describir el proceso inverso, como obtener los datos del contenido mixto. Cada procedimiento de extracción en Web-Harvest es definida por el usuario a través de XML mediante archivos de configuración. Cada archivo de configuración describe una secuencia de procesadores ejecutando alguna tarea, con el fin de lograr un objetivo. Los procesadores se ejecutan en forma de pipeline. Asíla salida de la ejecución de un procesador es la entrada de otro. Esto puede ser mejor explicado utilizando un fragmento simple de un archivo de configuración:






Cuando Web-Harvest ejecuta esta parte de la configuración, lo siguientes hechos ocurren:
1) Procesador http descarga el contenido de la Url especificada.
2) Procesador htm-to-xm limpia ese HTML produciendocontenido XHTML.
3) Procesador XPath busca enlaces específicos en XHTML desde la secuencia anterior, entregando una secuencia url como resultado.
Web-Harvest soporta un conjunto de procesadores útiles para manipulación de variables, condicionales, bucles, funciones, operaciones con archivos, procesamiento de html y xml, y gestión de excepciones.



II. visión



Descripción delmotivo, nociones y conceptos de Web-Harvest.

A. Motivo
La Web, es sin duda, donde se almacenan la mayor cantidad de conocimientos. En base a esto Web-Harvest fue desarrollado por la necesidad de tener los datos correctos en el momento adecuado. Ya que la web es, a veces, el único lugar donde podemos obtener los datos que se necesitan.


B. Concepto
El objetivo principal de Web-Harvest esutilizar las herramientas de extracción ya existentes. Su propósito no es proponer un nuevo método, pero si proporcionar un uso más sencillo y combinar los existentes. Web-Harvest ofrece un conjunto de procesadores para el manejo de datos y el control de flujo. Cada uno de los procesadores puede ser considerado como una función, con cero o más parámetros de entrada, proporcionando un resultadoluego de su ejecución. Los procesadores podrían combinarse en un pipeline, formando una cadena de ejecución. Para una manipulación más sencilla y una reutilización de los datos Web-Harvest provee de las llamadas variables de contexto donde las variables mencionadas son almacenadas.
Los resultados de las extracciones pueden estar disponibles en archivos creados durante la ejecución, o desde las...
Leer documento completo

Regístrate para leer el documento completo.

Estos documentos también te pueden resultar útiles

  • Rain harvesting
  • Energy Harvesting
  • Energy harvesting
  • Rainwater harvesting with vetiver
  • Propuesta De Energy Harvesting
  • Differences between manual and mechanical harvesting in vineyards
  • Harvesting Energy From Water Flow Over Graphene
  • An Efficient Piezoelectric Energy Harvesting Interface

Conviértase en miembro formal de Buenas Tareas

INSCRÍBETE - ES GRATIS