Extracción Automática De La Web

Páginas: 5 (1065 palabras) Publicado: 20 de enero de 2013
Iker Manterola1, Xabier Saralegi1, Sonia Bilbao2
1Elhuyar I+D / 2Tecnalia

Los recursos turísticos básicos se presentan como elemento clave para la creación de productos más complejos, como por ejemplo los productos experienciales. Así pues, para tener una mayor libertad a la hora de diseñar dichos productos es indispensable manejar un amplio número de recursos turísticos básicos, que recibenel nombre de recursos semilla. Estos recursos semilla se encuentran presentes en diferentes webs.

El trabajo parte de los datos presentes en las fichas de recursos turísticos disponibles en la base de datos de Open Data Euskadi (ODE), base de datos pública ofrecida por el Gobierno Vasco y que tiene entre sus objetivos generar transparencia en relación a la gestión pública así como aumentar lainteroperabilidad entre administraciones. Esta base de datos contiene información de diferentes áreas, entre ellas ocio y turismo, en relación a recursos como alojamiento, restaurantes o patrimonio.

Como ha sido comentado anteriormente, el objetivo es aumentar la cobertura de las fichas ya existentes en dicha base de datos, y para ello se debe acudir a la web. La tarea no es sencilla ya queefectivamente, esta información será extraída de diferentes webs y por lo tanto el formato en el que se presentan difiere también de unas a otras. A grandes rasgos, los pasos a seguir son dos: en primer lugar se seleccionan las webs que se presupone contienen fichas de recursos semilla, y a continuación se produce la extracción de esta información mediante una herramienta denominada wrapper (enespañol herramienta envoltorio o envoltura).

La primera fase, detección de webs candidatas, se realiza mediante técnicas de crawling. Utilizando la API del buscador web Bing, se construyen consultas en función de los resultados que se quieren obtener, en este caso con los valores incluidos en las fichas de los recursos turísticos semillas de la Open Data Euskadi. Un ejemplo de ésta consulta enrelación a los restaurantes en Guipúzcoa, con datos de la base de datos sería

Q={“Asador Urkiola” “Mayor, 7” “Gran Sol” “San Pedro, 63” “Juanito Kojua” “Puerto, 14” “Altzueta” “Bº Osinaga, 7” “Eula” “Barrio Lategi, 19” ...}

Los buscadores web comerciales no manejan consultas de este tamaño por lo que, antes de lanzarlo al buscador web Bing es necesario dividirlo en Qi subconsultas, que siguiendoel ejemplo serían las siguientes:

Q1={“Asador Urkiola” “Mayor, 7” “Altzueta” “Bº Osinaga, 7”}
...
Qk={“Juanito Kojua” “Puerto, 14” “Gran Sol” “San Pedro, 63”}

Los sitios web encontrados en la búsqueda son descargados para su uso en la siguiente fase.

La segunda fase, inducción de wrappers. Por cada sitio web descargado se crea un wrapper capaz de identificar los diferentes atributos(nombre, dirección, por ejemplo) y sus valores. En la búsqueda y extracción de patrones o estructuras de dichos atributos se establece que los mismos se repitan con cierta frecuencia y que se utilicen valores de fichas turísticas obtenidas de la base de datos Open Data Euskadi. Esta información deseada se presenta en una estructura HTML, y partiendo del grupo de expresiones obtenidas, si laestructura aparece con suficiente frecuencia es dada por correcta para a continuación extraer todos los textos que estén contenidos en la misma. Es necesaria una revisión manual para optimizar resultados. Así se crean nuevas fichas de recursos turísticos que no estaban presenten en la ODE.

Para resumir el proceso, partiendo de las fichas ya existentes en la base de datos Open Data Euskadi, seconstruyen una serie de consultas y subconsultas que son lanzadas a través de la API del buscador web Bing, obteniendo una serie de sitios web candidatos de los que se descargan la información a través de wrappers, obteniendo finalmente nuevas fichas para incrementar los datos de la base de datos utilizada.

Ésta metodología ha sido evaluada para determinar su eficacia, siguiendo el ejemplo de los...
Leer documento completo

Regístrate para leer el documento completo.

Estos documentos también te pueden resultar útiles

  • 02 Extraccion Automatica De Terminologia
  • Extracción Web Nicanor
  • Automaticas B Esp Web 2
  • Automatas
  • Automata
  • Automatismos
  • automata
  • Automatas

Conviértase en miembro formal de Buenas Tareas

INSCRÍBETE - ES GRATIS