• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

データの低品質性を考慮したデータ解析手法の開発と体系化

研究課題

研究課題/領域番号 21K11796
研究種目

基盤研究(C)

配分区分基金
応募区分一般
審査区分 小区分60030:統計科学関連
研究機関早稲田大学

研究代表者

須子 統太  早稲田大学, 社会科学総合学術院, 准教授 (40409660)

研究期間 (年度) 2021-04-01 – 2025-03-31
研究課題ステータス 交付 (2023年度)
配分額 *注記
3,900千円 (直接経費: 3,000千円、間接経費: 900千円)
2023年度: 1,040千円 (直接経費: 800千円、間接経費: 240千円)
2022年度: 1,040千円 (直接経費: 800千円、間接経費: 240千円)
2021年度: 1,820千円 (直接経費: 1,400千円、間接経費: 420千円)
キーワード選択バイアス / 統計的決定理論 / 不良回答 / アンケートデータ / 低品質データ / ラベルノイズ
研究開始時の研究の概要

本研究では,低品質なデータからでも有用な知識を抽出する事ができる新しい分析手法を開発するとともに,様々な分析手法を体系化することで,低品質データの統合的な扱い方を明らかにすることを目的とする.具体的には,「統計的決定理論に基づく選択バイアス補正手法の開発」,「不良回答を含むアンケートデータの分析手法の確立」,「データ劣化過程の統合モデルの開発と体系化」を行う.

研究実績の概要

本研究では,所謂ビッグデータにおけるデータの低品質性に着目し,低品質データからでも有用な知識を抽出する事ができる新しい分析手法を開発するとともに,様々な分析手法を体系化することで低品質データの統合的な扱い方を明らかにすることを目的としている.具体的には「目的A.統計的決定理論に基づく選択バイアス補正手法の開発」「目的B.不良回答を含むアンケートデータの分析手法の確立」「目的C.データ劣化過程の統合モデルの開発と体系化」という3つの目的に対する研究を進めていく.2023年度は目的AおよびBについて研究を実施した.
目的A:選択バイアスの補正手法について,傾向スコア法や回帰モデル法など様々なアルゴリズムが提案されている.しかし,万能な補正アルゴリズムはなく,データによって補正精度の高いアルゴリズムが異なる事が実験的に示されている.そこで,選択バイアス発生のモデルを明確に定義することで,統計的決定理論に基づきベイズ最適な選択バイアス補正手法の開発を目指した.2022年度までは、統計的決定理論に基づいた理論的なフレームワークを構築し,選択バイアス補正問題に対する理論的な最適戦略を明らかにし,人工データを用いた最適戦略のバイアス補正性能に関する評価実験を行い論文にまとめた.2023年度にはこの成果を拡張し,ロジスティック回帰モデルを用いた理論的な最適戦略とその近似アルゴリズムの開発を行った.
目的B:不良回答が混入したアンケートに対する分析手法の開発を目的としている.2022年度までは,アンケートに追加の設問を付与することで不良回答を検出する手法に関する理論的な検出精度の導出に関する研究を行った.2023年度はこれらの成果発展させ,一般的な状況下における不良回答検出確率の導出法のフレームワークを構築し,その内容をまとめ論文投稿を行った.論文については現在査読中である.

現在までの達成度 (区分)
現在までの達成度 (区分)

2: おおむね順調に進展している

理由

2023年度は2022年度に引き続き,目的Aと目的Bについて並行して研究を進めた.目的Aについては2022年度までに完成させた統計的決定理論に基づく選択バイアス補正手法の基本的なフレームワークをもとに新しい補正手法を提案するなど発展的な内容を推進できた.また,目的Bについては前年度までの成果を更に発展させ統一的なフレームワークの構築を行い,その内容について論文投稿まで進めることができた.これらは当初計画を以上の成果である一方,目的Cについては十分な進捗が得られなかった.以上より,総合して概ね順調に進展していると考えている.ただし,論文の査読が継続中につき,査読結果次第で内容の修正,ブラッシュアップが必要であることを踏まえ研究期間を延長した.

今後の研究の推進方策

今年度は,目的Bの成果の論文化を進めることと,目的Cに関する研究を推進することを中心に進める.具体的には,現在投稿中である目的Bにおける任意の選択肢を持つアンケートにおける不良回答の検出確率の理論評価に対する論文を完成させるとともに,可能であれば更に内容の発展について検討したい.また,目的Cについては,目的A,Bの成果で得た知見を活かし,データの劣化課程の統合モデルの構築を目指す.さらに,余力があれば目的Aにおける選択バイアス補正法のさらなる発展も検討したい.

報告書

(3件)
  • 2023 実施状況報告書
  • 2022 実施状況報告書
  • 2021 実施状況報告書
  • 研究成果

    (10件)

すべて 2024 2023 2022 2021

すべて 雑誌論文 (2件) (うち査読あり 2件、 オープンアクセス 1件) 学会発表 (8件) (うち国際学会 1件)

  • [雑誌論文] 正則化最小二乗法を用いた多変量多項式回帰モデルに対するパラメータ推定法2024

    • 著者名/発表者名
      井上一磨,清水良太郎,須子統太,後藤正幸
    • 雑誌名

      情報処理学会論文誌数理モデル化と応用(TOM)

      巻: vol. 17, No.1 ページ: 36-46

    • 関連する報告書
      2023 実施状況報告書
    • 査読あり
  • [雑誌論文] A Study on Estimation of Distribution from Survey Data with Selection Bias based on Statistical Decision Theory2023

    • 著者名/発表者名
      Tota Suko
    • 雑誌名

      日本経営工学会論文誌

      巻: 73 号: 4E ページ: 260-267

    • DOI

      10.11221/jima.73.260

    • ISSN
      1342-2618, 2187-9079
    • 年月日
      2023-01-15
    • 関連する報告書
      2022 実施状況報告書
    • 査読あり / オープンアクセス
  • [学会発表] An Approximate Bayes Optimal Algorithm for Correcting Sample Selection Bias for Logistic Regression Models2023

    • 著者名/発表者名
      Taichi Abe, Tota Suko, Masayuki Goto
    • 学会等名
      The 21st Asian Network for Quality Congress (ANQ 2023)
    • 関連する報告書
      2023 実施状況報告書
    • 国際学会
  • [学会発表] 最大次数が未知の多項式回帰モデルに対するスパース推定に関する一考察2023

    • 著者名/発表者名
      井上一磨,清水良太郎,須子統太,後藤正幸
    • 学会等名
      情報処理学会研究報告,Vol.2023-MPS-143,No.17,1-6
    • 関連する報告書
      2023 実施状況報告書
  • [学会発表] ロジスティック回帰モデルにおける統計的決定理論に基づく選択バイアス補正アルゴリズムについて2023

    • 著者名/発表者名
      阿部太一, 須子統太, 後藤正幸
    • 学会等名
      2023年度人工知能学会全国大会予稿集,1G3GS102
    • 関連する報告書
      2023 実施状況報告書
  • [学会発表] 不良回答の検出を目的としたアンケート設計に関する一考察2023

    • 著者名/発表者名
      須子統太,小林学
    • 学会等名
      第46回情報理論とその応用シンポジウム(SITA2023),pp.528-532
    • 関連する報告書
      2023 実施状況報告書
  • [学会発表] 不良回答検出を目的としたアンケート設計手法と検出率の理論評価について2023

    • 著者名/発表者名
      野口稜太,須子統太,小林学
    • 学会等名
      情報処理学会第85回全国大会
    • 関連する報告書
      2022 実施状況報告書
  • [学会発表] 正則化最小二乗法を用いた線形基底関数モデルに対する予測アルゴリズム2023

    • 著者名/発表者名
      倉持七海,須子統太
    • 学会等名
      情報処理学会第85回全国大会
    • 関連する報告書
      2022 実施状況報告書
  • [学会発表] 不良回答検出のためのアンケート設計方法について2022

    • 著者名/発表者名
      伊藤健太郎,須子統太,小林学
    • 学会等名
      情報処理学会第84回全国大会
    • 関連する報告書
      2021 実施状況報告書
  • [学会発表] 統計的決定理論に基づく選択バイアスを含む調査データからの分布推定法について2021

    • 著者名/発表者名
      須子統太
    • 学会等名
      日本経営工学会2021年春季大会
    • 関連する報告書
      2021 実施状況報告書

URL: 

公開日: 2021-04-28   更新日: 2024-12-25  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi