Volver al Repositorio
API de codificación automática de respuestas abiertas en encuestas del Instituto Nacional de Estadísticas

API de codificación automática de respuestas abiertas en encuestas del Instituto Nacional de Estadísticas

Objetivo Principal

Mejorar la eficiencia y calidad de la clasificación de la actividad económica y ocupación de las personas

Descripción

Algunas de las encuestas que el Instituto Nacional de Estadísticas (INE) aplica contienen preguntas abiertas, cuyo procesamiento requiere la clasificación y codificación de las respuestas para efectos estadísticos. Al tratarse de un proceso intensivo en recursos humanos, el INE implementa desde 2019 una metodología de clasificación y codificación automática de dicha información, la que utiliza en varios de sus instrumentos. [1]
La aplicación de este método comenzó con el procesamiento de los datos correspondientes al trimestre febrero-abril de 2019 de la Encuesta Nacional de Empleo, específicamente para dos categorías: Clasificador Internacional Uniforme de Ocupaciones (CIUO) y Clasificador de Actividades Económicas Nacional para Encuestas Sociodemográficas (CAENES). Profesionales del INE desarrollaron un modelo basado en minería de textos y aprendizaje de máquinas (técnica support vector machines), el que entrenaron con 505.958 registros de personas ocupadas entre 2015 y 2017, y que posteriormente utilizó los datos actualizados de la última encuesta aplicada (2018). La evaluación del modelo arrojó un margen de error final de 2,6% y una reducción del tiempo requerido, en tanto la codificación manual ocupaba 3.500 horas de trabajo en un mes, mientras la automática toma menos de 4 horas [2].
Desde entonces, el INE extendió el uso de esta metodología a la Encuesta Nacional de Seguridad Ciudadana (ENUSC), en 2019, y en la prueba piloto de la Encuesta de Presupuestos Familiares (EPF), en 2020, instrumento en el que se agregó un modelo de deep learning para codificar la Clasificación de Consumo Individual por Finalidades (CCIF). Además, con el fin de disminuir los errores de los modelos, el INE ejecuta un proyecto de actualización de los datos de entrenamiento y optimización de los algoritmos de codificación automatizada. [1] La API desarrollada por el Instituto se encuentra disponible para ser consultada en R y Python y se dispone de un tutorial para su uso. [3, 4]

Fuentes