Outlier

Páginas: 16 (3753 palabras) Publicado: 19 de junio de 2011
Outlier o valor anómalo

Al observar un conjunto de valores de una misma variable estadística, aparecen a veces valores “extraños” o de dudosa “validez”. Un valor anómalo se pude describir como una observación con un valor que no parece corresponderse con el resto de observaciones de una misma población. Es decir, que es numéricamente distante del resto de valores u observaciones, y pocofrecuente.

Vamos a describir una situación que pueda explicar claramente qué sería un valor anómalo. Por ejemplo, si el Real Madrid C. F. le ganara al F.C. Barcelona con un marcador de 0-12 en el Camp Nou, este valor en una variable llamada resultados, se debería considerar como valor anómalo. Estaríamos ante un valor poco frecuente y bastante alejado del resto de observaciones.

Nos surgen dospreguntas a plantear con respecto a este tema:

1.- ¿Qué valor se puede considerar realmente como valor anómalo?
2.- ¿Se puede realizar el análisis de datos eliminando estos valores?

¿Cómo se puede identificar un valor anómalo?

Un outlier está representando la observación más extrema, ya sea mínima o máxima, o ambas. Lo que no quiere decir que un mínimo o un máximo siempre sea un outlier,ya que puede no ser inusual que un dato esté lejos de las demás observaciones.

No hay ninguna definición matemática para comprobar cuando se produce un outlier. Determinar si una observación es o no un valor atípico es, en cierta manera, un ejercicio subjetivo. Se dice en cierta manera, porque en la actualidad existen técnicas procedentes de toda la gama informática y estadística que nos ayudana detectar esos valores atípicos.

La detección de valores anómalos se utiliza para identificar y, si se considera apropiado, eliminar observaciones anómalas. La detección puede identificar fraude y fallos en el sistema, antes de que se produzcan consecuencias catastróficas.

¿Por qué se puede producir un Outlier?
Un outlier o valor anómalo puede ser resultado de varias causas atípicas:- El aparato físico para realizar las medidas puede sufrir un mal funcionamiento. (Error de medida).
- Errores en la transmisión y transcripción de los datos medidos.
- Cambios en la conducta del sistema, conducta engañosa, error humano.
- Simples desviaciones de una población, población con distribución de cola pesada (valor de curtosis elevado).
- Defecto por asumir una teoría errónea.Existen tres métodos aproximados para la detección de valores anómalos:

- Tipo 1: Determinar el valor atípico sin conocimiento previo de los datos. Se aproxima a una distribución estadística y se marcan como banderas los puntos más lejanos puntos más lejanos. Estos datos son posibles outliers
- Tipo 2: Clasificar los valores en dos categorías: normales y anormales. Los valores clasificadoscomo anormales se identifican como posibles outliers.
- Tipo 3: Modelo para normalidad, aunque en algunos casos puede ser un modelo para anormalidad. Es análogo a un reconocimiento semi-supervisado o a una tarea de detección.

Para que los valores atípicos no influyan demasiado en los resultados del análisis de una población se deben utilizar técnicas estadísticas que sean resistentes a estosvalores atípicos, o usar instrucciones que asuman una distribución normal. Hay estimadores capaces de hacer frente a los valores atípicos. Son los llamados estimadores robustos o fuertes. La mediana es un parámetro estadístico robusto, mientras que la media aritmética o la desviación típica no lo son.

Ejemplo:

Si se calcula un promedio del peso de los alumnos de una clase de primaria, y todosestán entre 20 y 25Kg, pero uno pesa 50Kg, la mediana puede ser 23Kg, pero el peso medio estará entre 25 y 27Kg. Así en este caso, la mediana refleja mejor le peso de una muestra aleatoria que la media. Sin embargo, interpretar la media como una muestra típica equivalente a la mediana, es incorrecto. Como se puede deducir de este caso, los valores anómalos pueden ser indicativos de puntos de...
Leer documento completo

Regístrate para leer el documento completo.

Estos documentos también te pueden resultar útiles

  • N ENFOQUE EFECTIVO BASADO EN CLÚSTERING PARA LA DETECCIÓN DE VALORES ATÍPICOS (OUTLIER)

Conviértase en miembro formal de Buenas Tareas

INSCRÍBETE - ES GRATIS