Las ve

Solo disponible en BuenasTareas
  • Páginas : 14 (3455 palabras )
  • Descarga(s) : 9
  • Publicado : 16 de mayo de 2010
Leer documento completo
Vista previa del texto
Web Mining: Fundamentos Básicos
Francisco Manuel De Gyves Camacho Doctorado en informática y automática Universidad de Salamanca
fdegyves@usal.es

Resumen. La web es uno de las aplicaciones o fenómenos más importantes que han surgido en los últimos tiempos, ¿por que?, no hay más que ver la rápida aceptación que tuvo en la sociedad, ya que aquí descubrieron un medio significativo para exponerriquezas de información. Los motores de búsqueda son actualmente los mejores repositorios de información de la web, esto es debido al volumen de datos que contienen. Los usuarios acuden a este medio con el fin de localizar información más sin embargo si no se utilizan adecuadamente o no se busca bien, pueden ser no fructíferos. La web mining juega un rol importante hacia lograr la efectividad enlas relaciones de patrones interesantes.

1. Introducción
El crecimiento desmedido de la información que se encuentra en la web ha sido exponencial debido a la necesidad de los usuarios (personas físicas, empresas, universidades, gobierno, etc.) de contar con datos para la interrelación en el mundo globalizado. De acuerdo con Baeza–Yates, la información de la web es finita pero el número depáginas web es infinita 0 [ 1]. Actualmente existen alrededor de 4 mil millones de páginas estáticas, es decir la información que poseen los buscadores web, más sin embargo es importante mencionar que la mayoría de las páginas web y que no son indexables que existen en la web son dinámicas, es decir son aquellas que se generan automáticamente con datos extraídos de bases de datos [ 2]. Existendiferentes problemas a los que se enfrentan los usuarios debido al crecimiento exponencial. Uno de esos problemas es el que representa encontrar información relevante, esto es por dos aspectos muy relevantes, la baja precisión y la escasa cobertura. La escasa cobertura es debido a que no todos los motores de búsqueda tienen la suficiente capacidad de indexar la web, debido a varios factores; el ancho debanda, el espacio de disco duro, el costo económico, etc. La web mining actualmente es un área de investigación extensa dentro de varios grupos de investigadores, especialmente interesados debido al alto crecimiento de la información que existe en la web y por el movimiento económico que ha generado el e-commerce y sobre todo para intentar resolver los problemas que se han mencionado anteriormente,ya sea de manera directa o indirectamente. Actualmente

2 Francisco Manuel De Gyves Camacho Doctorado en informática y automática Universidad de Salamanca

lo que se ha pretendido realizar es aprender de acuerdo a los comportamientos de los usuarios en su andar por la web y así proporcionarles información realmente relevante, útil y personalizada en muchos casos. El presente documentopretende adentrarnos un poco en el mundo de la web mining, permitiéndonos conocer los aspectos básicos tales como, el proceso general de la web mining así como unas breves aproximaciones del web content mining, web structure mining y de la web usage mining

2. Particularidades de la Web
Es común encontrarse en la web con ciertas características preponderantes que parecieran problemas, sin embargopodrían catalogarse como oportunidades sin precedentes para la obtención de información y mejoramiento de la web. En los tiempos actuales, es común encontrar casi todo tipo de información en la web en cantidades descomunales y fácilmente accesibles. La información en la Web por lo regular es heterogénea, es decir muchas páginas presentan la misma o similar información usando formatos diferentes.Podemos decir que la información es redundante. La Web normalmente esta compuesta por una mezcla de tipos de información, por ejemplo, contenido principal, anuncios, paneles de navegación, noticias de copyright, etc. Para una aplicación en particular solo parte de la información es útil y el resto es basura ó no útil [ 3]. La información de la web cambia constantemente, es decir es dinámica.

3....
tracking img