NO ES MIA servente-tesisingenieriainformatica
MINERIA DE DATOS INTELIGENTE
TESIS DE GRADO EN INGENIERIA INFORMATICA
FACULTAD DE INGENIERIA
UNIVERSIDAD DE BUENOS AIRES
LABORATORIO DE SISTEMAS INTELIGENTES
TESISTA:
Srta. Magdalena SERVENTE
DIRECTOR:
Prof. Dr. Ramón GARCIA MARTINEZ
FEBRERO 2002
Algoritmos TDIDT aplicados a la Minería de Datos Inteligente
RESUMEN
La Minería de Datos(Data Mining) es la búsqueda de patrones interesantes y de regularidades
importantes en grandes bases de datos. El Aprendizaje Automático es el campo de la Ingeniería
Informática en el que se estudian y desarrollan algoritmos que implementan los distintos modelos de
aprendizaje y su aplicación a la resolución de problemas prácticos. La minería de datos inteligente utiliza
métodos de aprendizajeautomático para descubrir y enumerar patrones presentes en los datos.
Uno de los métodos más conocidos para describir los atributos de una entidad de una base de datos es
utilizar un árbol de decisión o de clasificación, que puede transformarse sin inconveniente a un conjunto
de reglas de decisión.
En este contexto, el propósito de este proyecto es estudiar de que manera la familia TDIDT,que aborda el
problema de inducir árboles de decisión, puede utilizarse para descubrir automáticamente reglas de
negocio a partir de la información disponible en una base de datos. Se trabajó en particular con los
métodos ID3 y C4.5, miembros de dicha familia. El trabajo contempla el diseño, especificación e
implementación de un ambiente de minería de datos que integra ambos algoritmos. Además,se desarrolló
un método de evaluación de los resultados para determinar la calidad de las reglas obtenidas.
Palabras clave: minería de datos, aprendizaje automático, árboles de decisión, reglas de decisión,
TDIDT, ID3, C4.5
ABSTRACT
Data mining is the search of interesting patterns and relevant regularities in large data bases. Machine
Learning is the Informatic Engineering’s fielddevoted to the analysis and development of algorithms
implementing the different learning models and their application to the solution of practical problems.
Intelligent data mining uses machine learning methods to find and list the patterns present in the data.
One of the best known methods to describe the attributes of an entity of a data base is the use of a
decision or classification tree,which can easily be turned into a set of decision rules.
Within this context, the purpose of the present project is to analyze the way in which the TDIDT family,
which studies the problem of inducing decision trees, can be used to discover automatically business rules
from the information available in a data base.
Resumen
Magdalena Servente
Algoritmos TDIDT aplicados a la Minería deDatos Inteligente
The work was focused in the ID3 and C4.5 methods, which belong to the family above mentioned. The
work includes the design, specification and implementation of a data mining system that combines both
algorithms. Furthermore, to determine the quality of the rules obtained, an evaluation method of the
corresponding results was developed.
Keywords: data mining, machinelearning, decision trees, decision rules, TDIDT, ID3, C4.5
Resumen
Magdalena Servente
Algoritmos TDIDT aplicados a la Minería de Datos Inteligente
Indice
Magdalena Servente
i
Algoritmos TDIDT aplicados a la Minería de Datos Inteligente
INDICE
CAPÍTULO 1: INTRODUCCIÓN
1
CAPÍTULO 2: ESTADO DEL ARTE
5
2.1. Aprendizaje Automático
6
2.1.1. Clasificación generalde los sistemas de Aprendizaje Automático
8
2.1.2. Esquema general de un sistema de Aprendizaje Automático
8
2.1.2.1. Aprendizaje de conceptos
8
2.1.2.2. Representación de conceptos
10
2.1.3. Aprendizaje
11
2.1.3.1. Aprendizaje supervisado y no supervisado
11
2.1.3.2. Tipos de aprendizaje automático
12
2.1.3.3 Métodos clásicos de aprendizaje
14...
Regístrate para leer el documento completo.