Propuesta metodológica para imputación de datos categóricos para el próximo Censo Nacional de Población y Viviendas

García, Gregorio; Ciardullo, Emanuel; Marí, Gonzalo; Mitas, Gerardo

dc.creator	García, Gregorio
dc.creator	Ciardullo, Emanuel
dc.creator	Marí, Gonzalo
dc.creator	Mitas, Gerardo
dc.date.accessioned	2020-11-24T18:33:39Z
dc.date.accessioned	2022-10-14T18:20:26Z
dc.date.available	2020-11-24T18:33:39Z
dc.date.available	2022-10-14T18:20:26Z
dc.date.created	2020-11-24T18:33:39Z
dc.date.issued	2020-10
dc.identifier	http://hdl.handle.net/11086/16872
dc.identifier.uri	https://repositorioslatinoamericanos.uchile.cl/handle/2250/4269672
dc.description.abstract	El Instituto Nacional de Estadística y Censos (INDEC) es el encargado del planeamiento y organización del Censo Nacional de Población y Viviendas (CNPyV) que se lleva a cabo cada 10 años. El mismo es el operativo más importante en términos de costo, logística y procesamiento y se caracteriza por recolectar información a través de variables mayormente del tipo categórica; por ejemplo: sexo, estado civil, rama de actividad y nivel educativo, entre otras. Asegurar la consistencia y completitud de la información es uno de los objetivos claves que se plantea el INDEC a la hora de realizar los CNPyV. Una vez finalizada la recolección de los datos, el Instituto usualmente debe tratar con el problema de datos faltantes, tanto a nivel individual como al de hogar/vivienda para la mayoría de las preguntas del cuestionario. Esta falta de información puede ocurrir por incompletitud ocasionada en parte por los censistas, por el proceso de lectura, por el reconocimiento óptico e interpretación de las cédulas censales para conformar la base censal, o bien porque la información brindada por la población presenta valores inconsistentes en algunas de las variables que se indaga, entre otras fuentes de error. Una de las metodologías claves a la hora de afrontar estos problemas que se mencionan son los métodos de imputación de valores perdidos; y en particular los orientados a la imputación de variables categóricas. El INDEC, en preparación para el próximo CNPyV, se encuentra evaluando diferentes métodos de imputación y las posibles herramientas disponibles para aplicarlos; entre ellos se encuentra la del vecino más cercano, implementado, por ejemplo, en el software CANCEIS desarrollado por Statistics Canada y principal cadidato a la hora de elegir una herramienta. Una modificación de este método fue propuesta por Tutz y Faisal (2017), que considera una distancia ponderada por la asociación entre las distintas variables para definir la vecindad entre unidades. El objetivo de este trabajo es el de presentar la modificación de Tutz y Faisal, su aplicación en diferentes escenarios simulados y evaluar su desempeño contrastándolo contra la imputación por la mediana y MissForest (Pantanowitz y Marwala, 2009), cuyo método está basado en la técnica Random Forest. Además, se evalúa su performance, su implementación en grandes volúmenes de datos, y la facilidad de interactuar con todo el proceso censal. Los resultados preliminares sugieren que el método de Tutz y Faisal es una alternativa viable para la imputación del futuro censo.
dc.language	spa
dc.rights	http://creativecommons.org/licenses/by-nc/4.0/
dc.rights	Atribución-NoComercial 4.0 Internacional
dc.subject	Imputación
dc.subject	Estadísticas oficiales
dc.subject	Censo
dc.subject	Datos categóricos
dc.title	Propuesta metodológica para imputación de datos categóricos para el próximo Censo Nacional de Población y Viviendas
dc.type	video

Este ítem pertenece a la siguiente institución

Universidad Nacional de Córdoba (Argentina)