Técnicas de minería de datos y texto

Solo disponible en BuenasTareas
  • Páginas : 11 (2512 palabras )
  • Descarga(s) : 0
  • Publicado : 4 de octubre de 2010
Leer documento completo
Vista previa del texto
Técnicas de Minería de datos y texto aplicadas a
la Seguridad Aeroportuaria

Autora: MSC. Zoila María Ruiz Vera
UEB Servicios Aeronáuticos

Dirección: Ave Van Troi y Final. Aeropuerto Internacional “José Martí”. ECASA. Boyeros, La Habana, Cuba. Cod. 10400.
Telf: 53(7) 2664424; email: zoyla@aeronav.ecasa.avianet.cu

Resumen
Las experiencias del Departamento de Control del Instituto deCibernética, Matemática y Física (ICIMAF) se han aplicado a las necesidades de la Aviación, dentro del marco de la Empresa Cubana de Aeropuertos y Servicios Aeronáuticos (ECASA). El Proyecto Seguridad Aeroportuaria es una salida del Programa Nacional de Minería de Datos y pretende extraer conocimiento oculto de la información acumulada. Se parte de la necesidad de encontrar patrones de conductade la organización desconocidos, en los datos de seguridad aeroportuaria, que permitan relacionarlos con los incidentes/accidentes de aviación en un aeropuerto, para una vez determinado su comportamiento, poder prevenir los incidentes/accidentes.
Palabras claves: Minería de datos, redes bayesianas, árbol de decisión, fases de operación, incidente.
Objetivos:
Encontrar indicadores decomportamiento de atributos de los datos fundamentalmente los de texto, para desarrollar modelos de caracterización y predicción, integrarlos a un sistema de Vigilancia Tecnológica que mejore el aspecto cualitativo y cuantitativo del análisis para prevenir accidentes de aviación.
Materiales y métodos:
La fuente de información es una base de datos con 320 registros de 2004-2009 que describe el expedienteinvestigativo de incidentes aeroportuarios. La misma fue modificada para que pudieran utilizarse herramientas informáticas de análisis avanzado como: PostgreSQL 8.2, PHP, Apache, Weka, QDA Miner, SIMstat y Viscovery SOMine, que permiten extraer una mayor cantidad de interrelaciones dentro los atributos bajo arquitectura cliente/ servidor. El método para desarrollar la investigación se basó en lametodología CRISP-DM (DATAMINING Cross-Industry Standard Process).
La metodología CRISP-DM desarrollada en 1996, establece que la minería de datos sigue un ciclo de vida de 6 fases, en una secuencia adaptativa:

1. ENTENDER EL PROBLEMA.

2. COMPRENDER LOS DATOS.

3. PREPARACIÓN DE LOS DATOS.

4. FASE DE MODELACIÓN.

5. EVALUACIÓN.

6. IMPLEMENTACIÓN.1. ENTENDER EL PROBLEMA

El problema se hizo latente al comprobar la obsolencia de la aplicación existente y de las indicaciones superiores de pasar las mismas a software libre. Además de la oportunidad para mejorarla, se está evaluando su desarrollo hacia metas superiores de utilización de la información analizando la interrelación de sus atributos, la búsqueda de conocimiento oculto en lasmismas y la mejor manera de utilizar los recursos existentes.
2. Comprender los datos y 3. Preparar los datos

Pre-procesamiento

El preprocesado de datos en un problema de Minería de Datos que abarca la recolección de la información, extrayendo lo que en realidad es relevante para poder enfrentarse a un problema y como indica la metodología se puede volver a analizar las fuentes en buscade mejores combinaciones de variables. El formato primario de los datos ha requerido de ciertos ajustes para ser entendido por un software de Minería de Datos.
La limpieza de los datos fue una ardua tarea ya que la aplicación antigua permitía captaciones deficientes en los formatos de los datos sin máscaras de entrada, por ejemplo, en los dendogramas se descubre ambivalencia en lasdenominaciones de los especialistas, por ejemplo: estacionado, estacionada, avión, aeronave, capitán, Cap., etc.
Otras tareas de esta etapa se refieren a la preparación de los datos en las características de los campos en un entorno cliente servidor, a través de la nueva aplicación PostgreSQL se produce la captación que deberá extenderse en un formulario web de entrada a todos los posibles actores o...
tracking img