Mapeo de las dimensiones de la pobreza mediante macrodatos, encuestas socioeconómicas y aprendizaje automático en Camboya

Khoun Theara, Poortinga Ate, Thwal Soe, Gonzalez de Alba, McMahon Andrea, Carlos Mendez

October 2025

Resumen

Camboya ha crecido con rapidez, pero sigue siendo económicamente vulnerable, con una pobreza persistente y datos subnacionales escasos y desactualizados. Este estudio combina fuentes de macrodatos, aprendizaje automático y la Encuesta Socioeconómica de Camboya para predecir y mapear el Índice de Pobreza Multidimensional Global a partir de 10 indicadores de educación, salud y nivel de vida a escalas espaciales finas. Al integrar probabilidades de privación en cuadrícula con huellas de edificaciones, estimamos las privaciones a nivel de hogar. Un modelo de random forest alcanza una alta precisión para el agua potable, el saneamiento, el consumo de alimentos, los materiales de la vivienda, el combustible para cocinar y el acceso a la electricidad. Entre los principales predictores se encuentran las luces nocturnas, la densidad de población y las redes viales. Persisten desafíos —en especial la necesidad de datos de entrenamiento no sesgados y la capacidad limitada para captar disparidades dentro de las provincias o los distritos. No obstante, el enfoque muestra cómo los macrodatos y el aprendizaje automático pueden complementar a las encuestas tradicionales para ofrecer mediciones más granulares y oportunas de la pobreza multidimensional.

Tipo

Artículo de revista

Publicación

Social Indicators Research

🌏 Introducción

Crecimiento económico acelerado, pero pobreza persistente (17,8 % por debajo de la línea nacional en 2019)
Los datos tradicionales de pobreza: desactualizados, costosos y poco detallados
La pobreza: no solo ingresos, sino también salud, educación y nivel de vida (marco del MPI)

Notas: Camboya ha experimentado un fuerte crecimiento, pero la pobreza persiste. El estudio aplica un enfoque multidimensional alineado con el MPI Global para captar privaciones más allá de los ingresos, centrándose en la educación, la salud y el nivel de vida.

📊 Objetivos de la investigación

Utilizar macrodatos de observación de la Tierra + la encuesta CSES + el aprendizaje automático
Mapear 10 indicadores de pobreza en las 3 dimensiones del MPI
Generar mapas de pobreza de alta resolución
Apoyar intervenciones de política focalizadas y rentables

Notas: El objetivo es integrar datos espaciales y de encuestas mediante IA/ML para producir mapas de pobreza detallados. Esto ayuda a los responsables de las políticas a asignar recursos de forma eficiente y a identificar vulnerabilidades locales.

📚 Literatura y motivación

Las encuestas de hogares = costosas, poco frecuentes y espacialmente poco detalladas
Luces nocturnas e imágenes satelitales → indicadores indirectos de la pobreza
El aprendizaje automático (RF, XGBoost, CNN) mejora las predicciones
Carencia: pocos estudios integran datos de encuestas + datos de observación de la Tierra para la pobreza multidimensional

Notas: Investigaciones previas muestran que los satélites y el ML pueden ayudar a predecir la pobreza, pero su integración con encuestas socioeconómicas para la pobreza multidimensional es limitada. Este estudio cubre esa carencia.

🗂️ Fuentes de datos

Encuesta CSES (10 000 hogares) – salud, educación, vivienda, ingresos
Datos satelitales y de observación de la Tierra – luces nocturnas, cobertura del suelo, densidad de población
Datos de infraestructura – carreteras, escuelas, hospitales, servicios públicos
Huellas de edificaciones – 3,8 millones de edificios residenciales/comerciales

Notas: Se utilizó un amplio conjunto de datos: la CSES para la información de los hogares, datos de observación de la Tierra para el entorno y la infraestructura, y huellas de edificaciones para escalar las predicciones al nivel del hogar.

⚙️ Metodología

Modelo Random Forest para la clasificación
Predice la probabilidad de privación para cada indicador
División en entrenamiento y validación (90/10)
Resultados: mapas de privación a nivel de hogar y regional

Notas: Se eligió el algoritmo Random Forest por su robustez y su capacidad para procesar tipos de datos mixtos. Los modelos producen mapas de probabilidad que pueden agregarse a nivel de municipio, distrito o provincia.

📑 Indicadores del MPI

Salud (2): consumo de alimentos, acceso a la atención sanitaria

Educación (2): nivel educativo alcanzado, asistencia escolar

Nivel de vida (6): combustible para cocinar, saneamiento, agua, electricidad, vivienda, activos

Notas: Se eligieron diez indicadores siguiendo el MPI Global. Se aplicaron ponderaciones iguales a las tres dimensiones principales. Estos indicadores reflejan prioridades de los ODS como la educación, la salud, el agua potable y la energía.

📈 Resultados – Importancia de las variables

Luces nocturnas = predictor clave en todos los indicadores
Densidad de población y redes viales también significativas
Predicciones más sólidas: combustible para cocinar, agua potable, saneamiento, electricidad
Predicciones débiles: asistencia escolar, atención sanitaria, activos

Notas: Las luces nocturnas y la densidad de población explican mejor la privación. El acceso a la infraestructura también es crucial. Los indicadores con correlación espacial (p. ej., los servicios públicos) tuvieron mejor desempeño que los vinculados a condiciones específicas del hogar.

🗺️ Resultados – Patrones espaciales de la pobreza

Centros urbanos: Phnom Penh, Siem Reap, Battambang → baja privación
Provincias remotas: Preah Vihear, Ratanakiri, Mondulkiri → alta privación
La pobreza es menor cerca de las principales carreteras y fronteras (efectos del comercio)

Notas: Los mapas espaciales muestran una concentración de la privación en regiones remotas y mal conectadas. Las zonas urbanas y fronterizas con infraestructura presentan una menor pobreza.

💡 Discusión

El ML espacial es útil, pero limitado para indicadores con señales espaciales débiles
Los datos de las encuestas de hogares no están diseñados para el ML → problemas de aproximación de la ubicación
Necesidad de una integración más rica de las encuestas (p. ej., preguntas sobre accesibilidad)
La observación de la Tierra + el ML ofrecen un mapeo de la pobreza granular y dinámico

Notas: Aunque prometedor, el ML tiene dificultades cuando los datos carecen de correlación espacial. Un mejor diseño de las encuestas puede potenciar la integración. Este enfoque híbrido muestra potencial para un seguimiento de la pobreza en tiempo real y de grano fino.

✅ Conclusión

10 indicadores del MPI mapeados usando observación de la Tierra + encuestas + ML
Mejores resultados para las privaciones relacionadas con la infraestructura
Permite estimaciones de la pobreza a nivel de hogar
Apoya los ODS: Fin de la Pobreza, Educación de Calidad, Salud, Agua Limpia, Energía
Investigación futura: autocorrelación espacial, descomposición de la desigualdad, IA avanzada

Notas: Este trabajo muestra cómo la IA y los datos de observación de la Tierra complementan a las encuestas tradicionales para mapear la pobreza multidimensional. Las líneas futuras incluyen el análisis espacial avanzado y modelos de aprendizaje profundo para una mayor precisión.