administracion informatica
El datamining (minería de datos), es el conjunto de técnicas y tecnologías que permiten explorar grandes bases de datos, de manera automática o semiautomática, con el objetivo de encontrar patrones repetitivos, tendencias o reglas que expliquen el comportamiento de los datos en un determinado contexto.
Básicamente, el datamining surge para intentar ayudar a comprender elcontenido de un repositorio de datos. Con este fin, hace uso de prácticas estadísticas y, en algunos casos, de algoritmos de búsqueda próximos a la Inteligencia Artificial y a las redes neuronales.
Aunque en datamining cada caso concreto puede ser radicalmente distinto al anterior, el proceso común a todos ellos se suele componer de cuatro etapas principales:
Determinación de los objetivos. Tratade la delimitación de los objetivos que el cliente desea bajo la orientación del especialista en data mining.
Preprocesamiento de los datos. Se refiere a la selección, la limpieza, el enriquecimiento, la reducción y la transformación de las bases de datos. Esta etapa consume generalmente alrededor del setenta por ciento del tiempo total de un proyecto de data mining.
Determinación delmodelo. Se comienza realizando unos análisis estadísticos de los datos, y después se lleva a cabo una visualización gráfica de los mismos para tener una primera aproximación. Según los objetivos planteados y la tarea que debe llevarse a cabo, pueden utilizarse algoritmos desarrollados en diferentes áreas de la Inteligencia Artificial.
Análisis de los resultados. Verifica si los resultadosobtenidos son coherentes y los coteja con los obtenidos por los análisis estadísticos y de visualización gráfica. El cliente determina si son novedosos y si le aportan un nuevo conocimiento que le permita considerar sus decisiones.
EJEMPLOS:
a) Supongamos un banco que otorga créditos y va a estudiar la concesión de un crédito. El banco tiene una serie histórica de datos de clientes yconcesión de créditos con m x n casillas. Por ejemplo los datos disponibles pueden ser: Cliente / Edad / Estado civil / Trabaja / Nómina / Casa / Hipoteca / ¿Pagó?. Cada una de estas columnas se llama atributo. El campo ¿Pagó? es binario (solo puede tomar como valores sí o no) y es el atributo clave que tiene el banco para estudiar la concesión del crédito. No siempre existe un atributo clave.¿Para qué le sirve la minería de datos al banco? Pues para decidir si concede el crédito o no: por ejemplo, estudiando y tratando los datos puede llegar a la conclusión de que los varones menores de 20 años que están casados estadísticamente tienen un alto porcentaje de impagos. Si el cliente corresponde a ese perfil la decisión puede ser denegar el crédito.
b) Supongamos un hospital donde hayunos datos de pacientes y un diagnóstico. Se puede tener una tabla de datos que incluya por ejemplo datos como Paciente / Edad / Glóbulos rojos / Glóbulos blancos / Tensión / Azúcar / Diagnóstico. ¿Para qué le serviría la minería de datos al hospital? Pues por ejemplo para hacer un prediagnóstico de la dolencia que con mayor probabilidad pueda tener un paciente en base a sus datos asociados. Untipo de dolencia se dice que es un dato discreto porque solo puede tomar unos valores concretos (por ejemplo que haya 30 tipos de dolencias). Estudiando y tratando los datos se pueden llegar a conclusiones, por ejemplo que si un paciente tiene más de 60 años, los glóbulos blancos muy altos y el azúcar alto es muy probable que esté desarrollando diabetes. Si el paciente corresponde a ese perfil, ladecisión puede ser hacer unas pruebas específicas o poner cierto tratamiento preventivo.
c) Supongamos un hipermercado. La minería de datos para grandes superficies se llama “análisis de cesta de la compra” o Market Basket Analysis. Por cada compra realizada, especialmente las realizadas con tarjeta, podría almacenar datos que le permite conocer los gustos de los clientes, qué es lo...
Regístrate para leer el documento completo.