Mapeo de las dimensiones de la pobreza mediante macrodatos, encuestas socioeconómicas y aprendizaje automático en Camboya

Resumen

Camboya ha crecido con rapidez, pero sigue siendo económicamente vulnerable, con una pobreza persistente y datos subnacionales escasos y desactualizados. Este estudio combina fuentes de macrodatos, aprendizaje automático y la Encuesta Socioeconómica de Camboya para predecir y mapear el Índice de Pobreza Multidimensional Global a partir de 10 indicadores de educación, salud y nivel de vida a escalas espaciales finas. Al integrar probabilidades de privación en cuadrícula con huellas de edificaciones, estimamos las privaciones a nivel de hogar. Un modelo de random forest alcanza una alta precisión para el agua potable, el saneamiento, el consumo de alimentos, los materiales de la vivienda, el combustible para cocinar y el acceso a la electricidad. Entre los principales predictores se encuentran las luces nocturnas, la densidad de población y las redes viales. Persisten desafíos —en especial la necesidad de datos de entrenamiento no sesgados y la capacidad limitada para captar disparidades dentro de las provincias o los distritos. No obstante, el enfoque muestra cómo los macrodatos y el aprendizaje automático pueden complementar a las encuestas tradicionales para ofrecer mediciones más granulares y oportunas de la pobreza multidimensional.

Publicación
Social Indicators Research

🌏 Introducción

  • Crecimiento económico acelerado, pero pobreza persistente (17,8 % por debajo de la línea nacional en 2019)
  • Los datos tradicionales de pobreza: desactualizados, costosos y poco detallados
  • La pobreza: no solo ingresos, sino también salud, educación y nivel de vida (marco del MPI)

Notas: Camboya ha experimentado un fuerte crecimiento, pero la pobreza persiste. El estudio aplica un enfoque multidimensional alineado con el MPI Global para captar privaciones más allá de los ingresos, centrándose en la educación, la salud y el nivel de vida.


📊 Objetivos de la investigación

  • Utilizar macrodatos de observación de la Tierra + la encuesta CSES + el aprendizaje automático
  • Mapear 10 indicadores de pobreza en las 3 dimensiones del MPI
  • Generar mapas de pobreza de alta resolución
  • Apoyar intervenciones de política focalizadas y rentables

Notas: El objetivo es integrar datos espaciales y de encuestas mediante IA/ML para producir mapas de pobreza detallados. Esto ayuda a los responsables de las políticas a asignar recursos de forma eficiente y a identificar vulnerabilidades locales.


📚 Literatura y motivación

  • Las encuestas de hogares = costosas, poco frecuentes y espacialmente poco detalladas
  • Luces nocturnas e imágenes satelitales → indicadores indirectos de la pobreza
  • El aprendizaje automático (RF, XGBoost, CNN) mejora las predicciones
  • Carencia: pocos estudios integran datos de encuestas + datos de observación de la Tierra para la pobreza multidimensional

Notas: Investigaciones previas muestran que los satélites y el ML pueden ayudar a predecir la pobreza, pero su integración con encuestas socioeconómicas para la pobreza multidimensional es limitada. Este estudio cubre esa carencia.


🗂️ Fuentes de datos

  • Encuesta CSES (10 000 hogares) – salud, educación, vivienda, ingresos
  • Datos satelitales y de observación de la Tierra – luces nocturnas, cobertura del suelo, densidad de población
  • Datos de infraestructura – carreteras, escuelas, hospitales, servicios públicos
  • Huellas de edificaciones – 3,8 millones de edificios residenciales/comerciales

Notas: Se utilizó un amplio conjunto de datos: la CSES para la información de los hogares, datos de observación de la Tierra para el entorno y la infraestructura, y huellas de edificaciones para escalar las predicciones al nivel del hogar.


⚙️ Metodología

  • Modelo Random Forest para la clasificación
  • Predice la probabilidad de privación para cada indicador
  • División en entrenamiento y validación (90/10)
  • Resultados: mapas de privación a nivel de hogar y regional

Notas: Se eligió el algoritmo Random Forest por su robustez y su capacidad para procesar tipos de datos mixtos. Los modelos producen mapas de probabilidad que pueden agregarse a nivel de municipio, distrito o provincia.


📑 Indicadores del MPI

Salud (2): consumo de alimentos, acceso a la atención sanitaria

Educación (2): nivel educativo alcanzado, asistencia escolar

Nivel de vida (6): combustible para cocinar, saneamiento, agua, electricidad, vivienda, activos

Notas: Se eligieron diez indicadores siguiendo el MPI Global. Se aplicaron ponderaciones iguales a las tres dimensiones principales. Estos indicadores reflejan prioridades de los ODS como la educación, la salud, el agua potable y la energía.


📈 Resultados – Importancia de las variables

  • Luces nocturnas = predictor clave en todos los indicadores
  • Densidad de población y redes viales también significativas
  • Predicciones más sólidas: combustible para cocinar, agua potable, saneamiento, electricidad
  • Predicciones débiles: asistencia escolar, atención sanitaria, activos

Notas: Las luces nocturnas y la densidad de población explican mejor la privación. El acceso a la infraestructura también es crucial. Los indicadores con correlación espacial (p. ej., los servicios públicos) tuvieron mejor desempeño que los vinculados a condiciones específicas del hogar.


🗺️ Resultados – Patrones espaciales de la pobreza

  • Centros urbanos: Phnom Penh, Siem Reap, Battambang → baja privación
  • Provincias remotas: Preah Vihear, Ratanakiri, Mondulkiri → alta privación
  • La pobreza es menor cerca de las principales carreteras y fronteras (efectos del comercio)

Notas: Los mapas espaciales muestran una concentración de la privación en regiones remotas y mal conectadas. Las zonas urbanas y fronterizas con infraestructura presentan una menor pobreza.


💡 Discusión

  • El ML espacial es útil, pero limitado para indicadores con señales espaciales débiles
  • Los datos de las encuestas de hogares no están diseñados para el ML → problemas de aproximación de la ubicación
  • Necesidad de una integración más rica de las encuestas (p. ej., preguntas sobre accesibilidad)
  • La observación de la Tierra + el ML ofrecen un mapeo de la pobreza granular y dinámico

Notas: Aunque prometedor, el ML tiene dificultades cuando los datos carecen de correlación espacial. Un mejor diseño de las encuestas puede potenciar la integración. Este enfoque híbrido muestra potencial para un seguimiento de la pobreza en tiempo real y de grano fino.


✅ Conclusión

  • 10 indicadores del MPI mapeados usando observación de la Tierra + encuestas + ML
  • Mejores resultados para las privaciones relacionadas con la infraestructura
  • Permite estimaciones de la pobreza a nivel de hogar
  • Apoya los ODS: Fin de la Pobreza, Educación de Calidad, Salud, Agua Limpia, Energía
  • Investigación futura: autocorrelación espacial, descomposición de la desigualdad, IA avanzada

Notas: Este trabajo muestra cómo la IA y los datos de observación de la Tierra complementan a las encuestas tradicionales para mapear la pobreza multidimensional. Las líneas futuras incluyen el análisis espacial avanzado y modelos de aprendizaje profundo para una mayor precisión.

Carlos Mendez
Carlos Mendez
Profesor Asociado de Economía del Desarrollo

Mi investigación se centra en integrar la economía del desarrollo, la ciencia de datos espaciales y la econometría para comprender e informar mejor el proceso de desarrollo sostenible entre regiones.