76Tyrt
Páginas: 115 (28716 palabras)
Publicado: 30 de enero de 2013
Extracción de Información de la Web usando Técnicas de Minería de Datos
Presentado por: Gretel Fernández
Diciembre 2009
RESUMEN En este capítulo se refleja el empleo de técnicas y algoritmos de Minería de Datos con el fin de obtener un conjunto de reglas y patrones que ayuden a clasificar elementos tales como títle, subtitle, origine, price, image, text de páginas web basadoen la identificación de características a partir del código html. El desarrollo de la investigación se apoya en la herramienta de libre distribución Weka 3.5.8 que posee prestaciones de gran utilidad para el cumplimiento de los objetivos del trabajo. Los resultados obtenidos en este capítulo constituyen el precedente de una investigación a mayor escala que tiene como propósito desarrollar unextractor de información de páginas web basado en técnicas inteligentes.
ABSTRACT This chapter reflects the use of techniques and data mining algorithms to obtain a set of rules and patterns that help to classify elements such as title, subtitle, origine, price, image, text from web pages based on the identification of features from html code. The development of the research was based on the freedistributed tool Weka 3.5.8 which has useful features to develop the objectives of the work. The results obtained in this chapter constitute a precedent from a research to more scale to develop an information extractor from the web pages based intelligent techniques.
ÍNDICE DE CONTENIDO 1.1 Introducción....................................................................................................1 1.2 Obtención del conjunto de datos................................................................2 1.2.1 Identificación del conjunto de entrenamiento ......................................2 1.2.2 Identificación de Características (Features)........................................3 1.2.3 Asignación de valores a las características ......................................10 1.3 Trabajo conla Herramienta Weka ................................................................59 1.3.1 Preprocesamiento (Primera Iteración)....................................................59 1.3.1.1 Obtención y análisis de los datos ....................................................59 1.3.1.2 Relaciones entre los atributos..........................................................61 1.3.1.3 Selecciónde características ............................................................70 1.3.1.4 Algoritmos de Clasificación..............................................................72 1.3.1.5 Técnicas de evaluación ...................................................................74 1.3.1.6 Obtención y descripción del modelo ................................................75 1.3.1.6.1 Algoritmo J48............................................................................75 1.3.1.6.2 Algoritmo ID3 ............................................................................82 1.3.2 Preprocesamiento (Segunda Iteración).............................................84 1.3.2.1 Análisis y Transformaciones de los datos........................................86 1.3.2.2 Obtención y Descripción delmodelo .............................................89 1.3.2.2.1 Algoritmo J48 (clasificación)......................................................89 1.3.2.2.2 Algoritmo ID3 ............................................................................93 1.3.2.3 Modelo Obtenido .............................................................................93 1.4 Conclusiones y Recomendaciones...............................................................94
INDICE DE TABLAS Tabla 1 Asignando valores a las características 1-7...........................................10 Tabla 2 Asignando valores a las características 8-13.........................................12 Tabla 3 Asignando valores a las características 14-18.......................................14 Tabla 4 Asignando valores a las...
Leer documento completo
Regístrate para leer el documento completo.