• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2015 年度 実績報告書

企業の信用力評価のための大規模財務データベースの欠損値補完・異常値処理方法の開発

研究課題

研究課題/領域番号 15H03390
研究機関統計数理研究所

研究代表者

山下 智志  統計数理研究所, データ科学研究系, 教授 (50244108)

研究分担者 野間 久史  統計数理研究所, データ科学研究系, 助教 (70633486)
研究期間 (年度) 2015-04-01 – 2019-03-31
キーワード経営学 / 経営財務 / データクレンジング / 欠損値補完 / 異常値処理 / MICE / kNN法
研究実績の概要

1.信用データベースの作成と判別モデル:企業の財務データと倒産データを統合した CRD 協会データを活用したデフォルト確率推計モデルを 2003 年に作成したが、担保や保証などの与信データと毀損データがないため、回収不能額を評価した信用リスク計量化をすることができなかった。担保・保証・毀損の情報が含まれるデータベースが存在しないため、複数の銀行の全数データを得て、平成27年度は総合的な信用リスクデータベースの統合作業を引き続き行った。(高度信用リスク統合データベースコンソーシアム:CDSC)。 このプロジェクトの問題点は、大企業と違い、中小企業の財務データには多くの欠損値・ 異常値があり、モデルの精度を極端に低下されていることであったが、データクレンジング法とロバスト推計を組み合わせることによって推計精度の向上が確認できた。
2.欠損値補完方法の検討:上記の信用リスクデータベース関係のプロジェクトの推進時に、データのクレンジング方法の差異によって、判別モデルの予測値や精度が大きく異なることを認識することができた。そのため、経営財務のデータに対して欠損値補完方法の検討を行っている。モデルのフィットを上げる目的に行うシングル補完(single imputation)と分散を保存するマルチ補完(multiple imputation)の2つの方法を試した。データ特有の問題点の多さや、数学的な方法論の脆弱性にかかわらず、欠損値補完においては目標の精度を確保できた。
3.医学データなどの欠損値補完方法の理論的検討:分担者の野間は医療・医薬品データに対する欠損値補完方法や効果の判別問題の数学的評価を行った。

現在までの達成度 (区分)
現在までの達成度 (区分)

1: 当初の計画以上に進展している

理由

【第1作業ユニット:山下、野間】においては、①クレンジング技術に関する数学的方法論のサーベイ、医療分野におけるクレンジング手法と判別問題のサーベイ、②経済経営データへのクレンジング技術の導入方法の検討を行った。
【第2作業ユニット:山下、宮本、一藤、高橋】においては、高度信用リスク統合データベースのステージ3の仕様作成、高度信用リスク統合データベースの運営管理、信用データに対するクレンジング技術の適用方法の検討、統計的モデルによる期待損失推定モデルの構築を行った。特に注目すべき結果については、大規模信用リスク統合データベースであるCRDデータに対してMICEとk-NN法の適用を行い、欠損値補完精度の確認を行うことができた。また高度信用リスク統合データベースコンソーシアムの会合を4回行い、データクレンジングに対して方法論のメニューを提示し、利用者が求める精度やアウトプットフォーマットについて整理を行った。議論の内容については議事録としてまとめている。
【ユニット共通作業:山下、田上、高橋】においては、データ提供者に対するフィードバック、意見調整、年次報告書の作成を行った。本年度からは企業財務データのほかに賃貸不動産業の基礎経営データであるアパート収益性について、データベースの整備を始めた。分析結果については、少量高質データ分の分析結果がまとまることができたため、年度報告版を作成し関係者に配布を行った。

今後の研究の推進方策

今後の研究推進方策については推進しているプロジェクトのデータベースごとに記述する。
1)企業財務データと担保・保証・毀損の複合データベースである高度信用リスク統合データベースコンソーシアム:CDSCのデータベースについては、引き続きデータクレンジングと信用リスク推計モデルのパラメータ推計方法の検討を続ける。特に、変数数が多いためスパース推計など最新の統計理論の応用や機械学習などによる効果を確認して、報告する予定である。
2)CRDデータベースにおいてはすでに一定のクレンジングに成功していると見なし、クレンジング効果をモデルの推計精度をもとに検証する。特に、これまでクレンジング精度はインサンプルデータによって行われてきたが、今後は本来のモデルの目的に即した評価方法であるバックテストによる効果を検証する。
3)平成27年度から始めた賃貸不動産業経営データベースにおいては、Webから採取したデータのクレンジングはほとんど行っていない。有効なモデリングのために平成28年度中に基本的なクレンジング方法とロバスト推計を試みる。サーベイデータベースにおいてはある程度の精度をすでに確保しているため、Webデータの教師データとして利用することを検討する。その際、少量高質データと大量低質データの結合に関する方法論を応用可能な一般論として確立することを目指す。
4)医学統計との連携を引き続き続けることにより、特にパネルデータの欠損補完やセンサリングに対する処理について、先端技術を本研究に導入することを試みる。

  • 研究成果

    (10件)

すべて 2016 2015

すべて 雑誌論文 (4件) (うち査読あり 4件) 学会発表 (5件) (うち招待講演 2件) 図書 (1件)

  • [雑誌論文] ソーシャル・ビッグデータ駆動の観光政策決定支援システム2015

    • 著者名/発表者名
      一藤裕, 岡本基, 山下智志, 曽根原登
    • 雑誌名

      月刊統計

      巻: 9 ページ: 20-25

    • 査読あり
  • [雑誌論文] Webビッグデータとサーベイデータの統合による賃貸住宅価値評価システムの構築2015

    • 著者名/発表者名
      山下智志, 一藤裕, 鈴木雅人, 大島容大
    • 雑誌名

      土木計画学研究

      巻: 52 ページ: 219-227

    • 査読あり
  • [雑誌論文] Analytical Solutions for Expected Loss and Standard Deviation of Loss with an Additional Loan2015

    • 著者名/発表者名
      Yamashita S. and Yoshiba T.
    • 雑誌名

      Asia-Pacific Financial Markets

      巻: 22-2 ページ: 113-132

    • DOI

      10.1007/s10690-014-9196-5

    • 査読あり
  • [雑誌論文] メタアナリシスのエビデンスを正しく読み解くために ~アカデミアの生物統計家の立場から~2015

    • 著者名/発表者名
      野間久史
    • 雑誌名

      薬理と治療

      巻: 43 ページ: 615-620

    • 査読あり
  • [学会発表] デフォルト・倒産予測モデルから進化した中小企業信用リスク計量化モデル2016

    • 著者名/発表者名
      山下智志
    • 学会等名
      OLIS‐慶應義塾大学保険フォーラム
    • 発表場所
      慶應義塾大学(神奈川県横浜市)
    • 年月日
      2016-01-16
    • 招待講演
  • [学会発表] Webビッグデータとサーベイデータの統合による賃貸住宅価値評価システムの構築2015

    • 著者名/発表者名
      山下智志, 一藤裕, 鈴木雅人, 大島容大
    • 学会等名
      土木計画学研究発表会
    • 発表場所
      秋田大学(秋田県秋田市)
    • 年月日
      2015-11-21 – 2015-11-23
  • [学会発表] 欠測を考慮したロバストな一般化線形モデルを用いた信用リスクの予測について―中小企業大規模財務データベースにおける考察―2015

    • 著者名/発表者名
      山下智志, 宮本道子, 安藤雅和
    • 学会等名
      統計関連学会連合大会
    • 発表場所
      岡山大学(岡山県岡山市)
    • 年月日
      2015-09-06 – 2015-09-09
  • [学会発表] 「国際ミクロ統計データベース」の利用方法について2015

    • 著者名/発表者名
      山下智志, 岡本基
    • 学会等名
      統計関連学会連合大会
    • 発表場所
      岡山大学(岡山県岡山市)
    • 年月日
      2015-09-06 – 2015-09-09
  • [学会発表] Quantifying indirect evidence in network meta-analysis via composite likelihood methods: Evaluation of inconsistency and contribution rates of direct and indirect evidence. Joint Statistical Meeting 20152015

    • 著者名/発表者名
      野間久史
    • 学会等名
      統計関連学会連合大会
    • 発表場所
      岡山大学(岡山県岡山市)
    • 年月日
      2015-09-06 – 2015-09-09
    • 招待講演
  • [図書] Univariate analysis for gene screening: Beyond the multiple testing. In Design and Analysis of Clinical Trials for Predictive Medicine(Chapter13)2015

    • 著者名/発表者名
      Noma, H. and Matsui, S (Matsui, S., Buyse, M. and Simon, R. (eds.))
    • 総ページ数
      400(207-226)
    • 出版者
      Boca Raton: Chapman and Hall/CRC

URL: 

公開日: 2017-01-06  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi