Minería de Datos

Páginas: 12 (2974 palabras) Publicado: 16 de marzo de 2013
Introducción a la Minería de Datos y el Data Warehousing
Sergio R. Coria
E-mail: sergio@mineriadedatos.com.mx
Resumen. Para hallar patrones significativos en grandes volúmenes de datos se ha usado
inicialmente la estadística y, más recientemente, el aprendizaje automático, un área de la
inteligencia artificial. La conjunción de estas disciplinas con la teoría y práctica de las
bases dedatos ha dado origen a la minería de datos, conocida también como
descubrimiento de conocimiento en bases de datos. Los patrones hallados constituyen
modelos descriptivos, predictivos o clasificadores que posteriormente pueden servir para
implementar software de aplicación especializada o para guiar la revisión de polí ticas o
procedimientos de las organizaciones. La necesidad de preservar yorganizar datos para
facilitar su consulta y análisis ha dado origen a los data warehouses y data marts. Un data
warehouse es una base de datos sumarizados, organizados en tablas de hechos y
dimensiones que facilita el procesamiento analítico en línea (OLAP), favoreciendo el
desempeño en consultas masivas.
Palabras clave: minería de datos, descubrimiento de conocimiento en bases de datos, datawarehouse, data mart.

Introducción
La motivación principal de la MD y el DW
es la necesidad de organizar grandes
volúmenes de datos y descubrir patrones
significativos no triviales que sirvan a
investigadores y administradores para lograr
un mayor entendimiento de los fenómenos y
procesos de su interés.
En este documento se presentan algunos de
los conceptos fundamentales de la mineríade datos (MD) y el data warehousing (DW),
así como las metodologías más comúnmente
usadas en estas disciplinas.

1. Minería de datos
La minería de datos (data mining), conocida
también
como
descubrimiento
de
conocimiento en bases de datos (knowledge
discovery in databases), es una disciplina de
las ciencias e ingenierías de la computación
que intenta hallar patrones significativos enconjuntos de datos para producir modelos
descriptivos, predictivos y clasificadores
apoyándose en técnicas de manejo y
programación de bases de datos, en

www.mineriadedatos.com.mx

estadística y aprendizaje automático (ML,
por machine learning).
El ML es de especial utilidad para la MD. Es
una disciplina de la inteligencia artificial en
la que se crean algoritmos y modelos queintentan imitar la capacidad que tienen los
sistemas nerviosos de los seres vivos para
abstraer patrones. La noción de patrón es de
gran importancia en la MD; se entiende
como la combinación de características o de
eventos que presentan alguna regularidad
para la percepción por tener algún tipo de
orden o de estructura.
En el ML las capacidades de abstracción se
emulan al buscar y modelar lasinteracciones
que existan entre los campos (atributos,
variables, features). Es frecuente que los
diversos algoritmos de ML se basen en
estadística y en teorías de las probabilidades
y de la información.
Existen dos grandes grupos de algoritmos de
ML: aprendizaje supervisado y no
supervisado. En ambos casos, el algoritmo
recibe como entrada un conjunto de datos
(data set) y produce comosalida un modelo
descriptivo, clasificador o predictivo. El data
set es una tabla bidimensional, organizada
en renglones y columnas. Cada renglón

1 de 6

constituye una instancia, ejemplo, registro o
tupla que describe un caso real del proceso o
fenómeno analizado. Cada columna
constituye un atributo.

automático, 6) reporte y evaluación de
hallazgos con el experto de dominio, 7)explotación de los hallazgos. A continuación
se describe cada uno de los pasos.

En el aprendizaje supervisado, el data set
contiene un atributo denominado atributo de
clase, que especifica a cuál clase o categoría
clasificatoria pertenece cada instancia del
data set. El atributo de clase se usa como
target (objetivo) para crear modelos.

1.2.1 Definición del objetivo del modelo. El...
Leer documento completo

Regístrate para leer el documento completo.

Estos documentos también te pueden resultar útiles

  • Mineria de Datos
  • MINERIA DE DATOS
  • Mineria de datos
  • Mineria de datos
  • mineria de datos
  • Mineria de dato
  • Mineria de datos
  • Mineria de datos

Conviértase en miembro formal de Buenas Tareas

INSCRÍBETE - ES GRATIS