ビッグデータ、社会経済調査、機械学習を用いたカンボジアにおける貧困の諸次元のマッピング

概要

カンボジアは急速に成長してきましたが、依然として経済的に脆弱であり、貧困が根強く残り、地方レベルのデータは乏しく、古くなっています。本研究は、ビッグデータ、機械学習、そしてカンボジア社会経済調査を組み合わせ、教育・保健・生活水準に関する10の指標から、細かい空間スケールでグローバル多次元貧困指数を予測しマッピングします。グリッド単位の剥奪確率を建物フットプリントと統合することで、世帯レベルの剥奪を推定します。ランダムフォレストモデルは、安全な飲料水、衛生設備、食料消費、住居の材料、調理用燃料、電気へのアクセスについて高い精度を達成しました。主要な予測変数には、夜間光、人口密度、道路網が含まれます。課題は依然として残っています——特に偏りのない訓練データの必要性、そして州や地区の内部の格差を捉える能力の限界です。それでもなお、本アプローチは、ビッグデータと機械学習が伝統的な調査を補完し、多次元貧困をよりきめ細かく、かつ適時に計測できることを示しています。

収録
Social Indicators Research

🌏 はじめに

  • 急速な経済成長、しかし貧困は根強く残る(2019年に国家貧困線以下が17.8%)
  • 伝統的な貧困データ:古く、高コスト、そして詳細さに欠ける
  • 貧困:所得だけでなく、保健、教育、生活水準も含む(MPIの枠組み)

メモ:カンボジアは力強い成長を経験しましたが、貧困は依然として残っています。本研究は、グローバルMPIに沿った多次元的アプローチを適用し、教育・保健・生活水準に焦点を当てて、所得を超えた剥奪を捉えます。


📊 研究の目的

  • 地球観測のビッグデータCSES調査機械学習 を活用する
  • MPIの3次元 にわたる 10の貧困指標 をマッピングする
  • 高解像度の貧困マップ を生成する
  • 対象を絞った費用対効果の高い政策介入 を支援する

メモ:目的は、AI/MLを用いて空間データと調査データを統合し、詳細な貧困マップを作成することです。これは政策担当者が資源を効率的に配分し、地域の脆弱性を特定するのに役立ちます。


📚 文献と研究の動機

  • 世帯調査=高コストで頻度が低く、空間的に詳細さに欠ける
  • 夜間光と衛星画像 → 貧困の間接的指標
  • 機械学習(RF、XGBoost、CNN)は予測を改善する
  • 課題:調査データ+地球観測データ多次元貧困 に統合する研究は少ない

メモ:先行研究は、衛星とMLが貧困の予測に役立つことを示していますが、多次元貧困のために社会経済調査と統合する取り組みは限られています。本研究はその課題を埋めます。


🗂️ データ源

  • CSES調査(10,000世帯)– 保健、教育、住居、所得
  • 衛星・地球観測データ – 夜間光、土地被覆、人口密度
  • インフラデータ – 道路、学校、病院、公共サービス
  • 建物フットプリント – 380万棟の住宅・商業建物

メモ:幅広いデータセットを利用しました。世帯情報にはCSESを、環境とインフラには地球観測データを、予測を世帯レベルへ拡張するには建物フットプリントを用いました。


⚙️ 手法

  • 分類のための ランダムフォレスト モデル
  • 各指標について 剥奪確率 を予測する
  • 訓練と検証への分割(90/10)
  • 成果物:世帯レベルおよび地域レベルの剥奪マップ

メモ:ランダムフォレストのアルゴリズムは、その頑健性と混在したデータ型を処理する能力ゆえに選ばれました。モデルは、コミューン、地区、州のレベルで集計可能な確率マップを生成します。


📑 MPIの指標

保健(2): 食料消費、医療へのアクセス

教育(2): 達成された教育水準、就学

生活水準(6): 調理用燃料、衛生設備、水、電気、住居、資産

メモ:グローバルMPIに従って10の指標を選定しました。3つの主要次元に等しい重みを適用しました。これらの指標は、教育、保健、安全な飲料水、エネルギーといったSDGsの優先課題を反映しています。


📈 結果 – 変数の重要度

  • 夜間光 = すべての指標にわたる主要な予測変数
  • 人口密度道路網 も有意
  • より頑健な予測:調理用燃料、安全な飲料水、衛生設備、電気
  • 弱い予測:就学、医療、資産

メモ:夜間光と人口密度が剥奪を最もよく説明します。インフラへのアクセスも極めて重要です。空間的相関を持つ指標(例:公共サービス)は、世帯固有の状況に結びついた指標よりも良好な成績を示しました。


🗺️ 結果 – 貧困の空間的パターン

  • 都市の中心地:プノンペン、シェムリアップ、バッタンバン → 低い剥奪
  • 遠隔の州:プレアビヒア、ラタナキリ、モンドルキリ → 高い剥奪
  • 貧困は 主要道路や国境 の近くで低い(貿易の効果)

メモ:空間マップは、遠隔かつ接続性の乏しい地域に剥奪が集中していることを示しています。インフラを備えた都市部や国境地域では貧困が低くなっています。


💡 考察

  • 空間的MLは有用ですが、空間的シグナルの弱い指標には限界があります
  • 世帯調査データはMLを念頭に設計されていない → 位置の近似の問題
  • より充実した調査の統合が必要(例:アクセシビリティに関する質問)
  • 地球観測 + ML は きめ細かく動的な貧困マッピング を提供します

メモ:有望ではあるものの、データに空間的相関が欠ける場合、MLは困難に直面します。調査設計の改善は統合を強化できます。このハイブリッドなアプローチは、リアルタイムかつきめ細かな貧困モニタリングの可能性を示しています。


✅ 結論

  • 地球観測 + 調査 + ML を用いて MPIの10指標をマッピング
  • インフラ関連の剥奪 について最良の結果
  • 世帯レベルの貧困推定 を可能にする
  • SDGs を支援:貧困をなくそう、質の高い教育、保健、清潔な水、エネルギー
  • 今後の研究:空間的自己相関、格差の分解、先進的なAI

メモ:本研究は、AIと地球観測データが、多次元貧困をマッピングするうえで伝統的な調査をどのように補完するかを示しています。今後の方向性としては、より高い精度のための先進的な空間分析と深層学習モデルが挙げられます。

カルロス・メンデス
カルロス・メンデス
開発経済学 准教授

私の研究は、開発経済学、空間データサイエンス、計量経済学を統合し、地域間における持続可能な開発のプロセスをより深く理解し、政策に役立てることを目指しています。