Objeto de conferencia
Selección de variables mediante regresiones penalizadas en grandes volúmenes de datos
Registro en:
issn:2451-7569
Autor
Kovalevski, Leandro
Institución
Resumen
Uno de los retos más importantes del análisis estadístico en esos grandes volúmenes de datos es detectar cuál es la información valiosa.
Las regresiones regularizadas, tales como Lasso o SCAD son alternativas usua-les cuando los métodos usuales de selección de variables en los modelos linea-les resultan no apropiados o no aplicables.
El objetivo de este trabajo es comparar el desempeño de las regresiones Lasso y SCAD en escenarios donde el número de variables importantes esté próximo al número de observaciones.
Se simularon distintos conjuntos de datos en los cuales las variables respuestas son funciones lineales de varios predictores independientes y errores que se si-mulan con distribución normal.
Las regresiones LASSO y SCAD se ofrecen como una alternativa válida para selección de variables con gran número de predictores, aunque pueden no ser las más adecuadas cuando la cantidad de efectos significativos se aproxima al número de observaciones. Sociedad Argentina de Informática e Investigación Operativa (SADIO)