76Tyrt

Páginas: 115 (28716 palabras) Publicado: 30 de enero de 2013
Capítulo 1
Extracción de Información de la Web usando Técnicas de Minería de Datos

Presentado por: Gretel Fernández

Diciembre 2009

RESUMEN En este capítulo se refleja el empleo de técnicas y algoritmos de Minería de Datos con el fin de obtener un conjunto de reglas y patrones que ayuden a clasificar elementos tales como títle, subtitle, origine, price, image, text de páginas web basadoen la identificación de características a partir del código html. El desarrollo de la investigación se apoya en la herramienta de libre distribución Weka 3.5.8 que posee prestaciones de gran utilidad para el cumplimiento de los objetivos del trabajo. Los resultados obtenidos en este capítulo constituyen el precedente de una investigación a mayor escala que tiene como propósito desarrollar unextractor de información de páginas web basado en técnicas inteligentes.

ABSTRACT This chapter reflects the use of techniques and data mining algorithms to obtain a set of rules and patterns that help to classify elements such as title, subtitle, origine, price, image, text from web pages based on the identification of features from html code. The development of the research was based on the freedistributed tool Weka 3.5.8 which has useful features to develop the objectives of the work. The results obtained in this chapter constitute a precedent from a research to more scale to develop an information extractor from the web pages based intelligent techniques.

ÍNDICE DE CONTENIDO 1.1 Introducción....................................................................................................1 1.2 Obtención del conjunto de datos................................................................2 1.2.1 Identificación del conjunto de entrenamiento ......................................2 1.2.2 Identificación de Características (Features)........................................3 1.2.3 Asignación de valores a las características ......................................10 1.3 Trabajo conla Herramienta Weka ................................................................59 1.3.1 Preprocesamiento (Primera Iteración)....................................................59 1.3.1.1 Obtención y análisis de los datos ....................................................59 1.3.1.2 Relaciones entre los atributos..........................................................61 1.3.1.3 Selecciónde características ............................................................70 1.3.1.4 Algoritmos de Clasificación..............................................................72 1.3.1.5 Técnicas de evaluación ...................................................................74 1.3.1.6 Obtención y descripción del modelo ................................................75 1.3.1.6.1 Algoritmo J48............................................................................75 1.3.1.6.2 Algoritmo ID3 ............................................................................82 1.3.2 Preprocesamiento (Segunda Iteración).............................................84 1.3.2.1 Análisis y Transformaciones de los datos........................................86 1.3.2.2 Obtención y Descripción delmodelo .............................................89 1.3.2.2.1 Algoritmo J48 (clasificación)......................................................89 1.3.2.2.2 Algoritmo ID3 ............................................................................93 1.3.2.3 Modelo Obtenido .............................................................................93 1.4 Conclusiones y Recomendaciones...............................................................94

INDICE DE TABLAS Tabla 1 Asignando valores a las características 1-7...........................................10 Tabla 2 Asignando valores a las características 8-13.........................................12 Tabla 3 Asignando valores a las características 14-18.......................................14 Tabla 4 Asignando valores a las...
Leer documento completo

Regístrate para leer el documento completo.

Conviértase en miembro formal de Buenas Tareas

INSCRÍBETE - ES GRATIS