dc.creatorGarcía, Gregorio
dc.creatorCiardullo, Emanuel
dc.creatorMarí, Gonzalo
dc.creatorMitas, Gerardo
dc.date.accessioned2020-11-24T18:33:39Z
dc.date.accessioned2022-10-14T18:20:26Z
dc.date.available2020-11-24T18:33:39Z
dc.date.available2022-10-14T18:20:26Z
dc.date.created2020-11-24T18:33:39Z
dc.date.issued2020-10
dc.identifierhttp://hdl.handle.net/11086/16872
dc.identifier.urihttps://repositorioslatinoamericanos.uchile.cl/handle/2250/4269672
dc.description.abstractEl Instituto Nacional de Estadística y Censos (INDEC) es el encargado del planeamiento y organización del Censo Nacional de Población y Viviendas (CNPyV) que se lleva a cabo cada 10 años. El mismo es el operativo más importante en términos de costo, logística y procesamiento y se caracteriza por recolectar información a través de variables mayormente del tipo categórica; por ejemplo: sexo, estado civil, rama de actividad y nivel educativo, entre otras. Asegurar la consistencia y completitud de la información es uno de los objetivos claves que se plantea el INDEC a la hora de realizar los CNPyV. Una vez finalizada la recolección de los datos, el Instituto usualmente debe tratar con el problema de datos faltantes, tanto a nivel individual como al de hogar/vivienda para la mayoría de las preguntas del cuestionario. Esta falta de información puede ocurrir por incompletitud ocasionada en parte por los censistas, por el proceso de lectura, por el reconocimiento óptico e interpretación de las cédulas censales para conformar la base censal, o bien porque la información brindada por la población presenta valores inconsistentes en algunas de las variables que se indaga, entre otras fuentes de error. Una de las metodologías claves a la hora de afrontar estos problemas que se mencionan son los métodos de imputación de valores perdidos; y en particular los orientados a la imputación de variables categóricas. El INDEC, en preparación para el próximo CNPyV, se encuentra evaluando diferentes métodos de imputación y las posibles herramientas disponibles para aplicarlos; entre ellos se encuentra la del vecino más cercano, implementado, por ejemplo, en el software CANCEIS desarrollado por Statistics Canada y principal cadidato a la hora de elegir una herramienta. Una modificación de este método fue propuesta por Tutz y Faisal (2017), que considera una distancia ponderada por la asociación entre las distintas variables para definir la vecindad entre unidades. El objetivo de este trabajo es el de presentar la modificación de Tutz y Faisal, su aplicación en diferentes escenarios simulados y evaluar su desempeño contrastándolo contra la imputación por la mediana y MissForest (Pantanowitz y Marwala, 2009), cuyo método está basado en la técnica Random Forest. Además, se evalúa su performance, su implementación en grandes volúmenes de datos, y la facilidad de interactuar con todo el proceso censal. Los resultados preliminares sugieren que el método de Tutz y Faisal es una alternativa viable para la imputación del futuro censo.
dc.languagespa
dc.rightshttp://creativecommons.org/licenses/by-nc/4.0/
dc.rightsAtribución-NoComercial 4.0 Internacional
dc.subjectImputación
dc.subjectEstadísticas oficiales
dc.subjectCenso
dc.subjectDatos categóricos
dc.titlePropuesta metodológica para imputación de datos categóricos para el próximo Censo Nacional de Población y Viviendas
dc.typevideo


Este ítem pertenece a la siguiente institución