Comentarios

Solo disponible en BuenasTareas
  • Páginas : 5 (1033 palabras )
  • Descarga(s) : 0
  • Publicado : 13 de abril de 2012
Leer documento completo
Vista previa del texto
Investigación
Propósito de selección de variables en la regresión logística
Zoran Bursac * 1, C Heath Gauss1, David Keith y Williams1
David W Hosmer2
Resumen
Antecedentes: El principal problema en muchas situaciones construcción de modelos consiste en elegir entre un amplio conjunto de las covariables las que deben incluirse en el "mejor" modelo. La decisión de mantener una variable en elmodelo podría basarse en la importancia clínica o estadística. Hay varios de selección de variables algoritmos existentes. Estos métodos son mecánicos y como tal llevar a algunas limitaciones. Hosmer y Lemeshow describir una selección intencionada de las covariables en el que un analista hace una decisión de selección de variables en cada paso del proceso de modelización.
Métodos: En esteartículo presentamos un algoritmo que automatiza este proceso. Llevamos a cabo un estudio de simulación para comparar el rendimiento de este algoritmo con tres bien documentado procedimientos de selección de variables en SAS PROC LOGISTIC: adelante, atrás, y Paso a paso.
Resultados: Se demuestra que la ventaja de este enfoque es cuando el analista está interesado en riesgo factor de modelado y no sólola predicción. Además de las covariables significativas, esta selección de variables procedimiento tiene la capacidad de retener importantes variables de confusión, lo que resulta potencialmente en un modelo un poco más rico. Aplicación de la macro se ilustra además con la prueba de Hosmer y Lemeshow Worcester Heart Attack Study (WHAS) de datos.
Conclusión: Si un analista está en la necesidad deun algoritmo que ayudará a guiar a la conservación de importantes covariables, así como los factores de confusión se debe considerar esta macro como una herramienta alternativa.
Antecedentes


Los criterios para la inclusión de una variable en el modelo varían entre problemas y disciplinas. El común aproximación a la construcción de modelos estadísticos es la minimización de variables hastaque el modelo más parsimonioso que describe los datos se encuentra que también da lugar a numérica la estabilidad y la generalización de los resultados.
Algunos metodólogos sugerir la inclusión de todas las clínicas y otras variables en el modelo, independientemente de su importancia en para controlar los factores de confusión. Este enfoque, sin embargo, puede dar lugar a estimacionesnuméricamente inestable y grandes errores estándar. Este artículo se basa en el propósito selección de las variables en los métodos de regresión (con determinados se centran en la regresión logística en el presente documento) propuesto por Hosmer y Lemeshow [1,2].

Es importante mencionar que con el cómputo rápido y la evolución de la información se ha producido un crecimiento en el de los métodos deselección de características y algoritmos. Algunos ejemplos incluyen en escalada, algoritmos voraces, recursivo eliminación de función, la asociación univariante de filtrado, y hacia atrás / adelante embalaje, para nombrar unos pocos.
Estos métodos han sido utilizados en bioinformática, el diagnóstico clínico, y algunas son universales para múltiples aplicaciones. Hill-escalada y algoritmos voracesson matemáticas técnicas de optimización utilizados en inteligencia artificial, que funcionan bien en ciertos problemas, pero no para producir soluciones óptimas para muchos otros [3-6].
Filtrado, embalaje, y los métodos de eliminación función recursiva se han utilizado en áreas como procesamiento de textos o la expresión de genes matriz de análisis. Aunque se trata de selección de gran alcancemétodos que han mejorado el rendimiento de los predictores, a menudo son computacionalmente intensivas.
Ellos son utilizados en grandes conjuntos de datos a menudo con miles de variables, presentar el problema de la dimensionalidad y como algunos otros métodos multivariantes tienen el potencial de la sobreajuste de datos [7].

Varios métodos de selección de variables están disponibles en...
tracking img