• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2017 年度 実績報告書

企業の信用力評価のための大規模財務データベースの欠損値補完・異常値処理方法の開発

研究課題

研究課題/領域番号 15H03390
研究機関統計数理研究所

研究代表者

山下 智志  統計数理研究所, データ科学研究系, 教授 (50244108)

研究分担者 野間 久史  統計数理研究所, データ科学研究系, 准教授 (70633486)
研究期間 (年度) 2015-04-01 – 2019-03-31
キーワード欠損値補間 / 異常値修正 / データクレンジング / データ結合 / 企業データ / 財務データ / 不動産データ / 信用リスク
研究実績の概要

欠損値や異常値が存在する不完全なデータに対する、データクレンジング手法については多くの研究成果がある。しかしそれらの成果は、一定の数学的仮説のもとに成り立つ方法論であり、実際のデータに対して適用可能であるとは限らない。2000年以降は、現実のデータの特性を踏まえた、特定分野を前提としたデータクレンジング手法の提案がなされている。一方、経営財務データについて統合・ビッグデータ化を行っているが、データクレンジング手法の研究は少ない。本研究では、統計学や生物・医療分野で発達した欠損値異常値処理を財務データへの適用を検討し、財務データ特有の性質をもとにした新たな手法を開発する。具体的には、CRD協会データや地銀5行の財務・与信データ、政府調査のミクロデータ、不動産賃貸業データに適用する。これらの正常化されたデータベースのうち、秘匿性の低いデータベースについては研究用に公開する。
さらに今年度から法人統計・事業所統計などの政府データと上記の企業データとの結合に関する方法論を研究し、一定の成果を得ている。
1.欠損値異常値に関する既存研究のサーベイ。2.医療系データベースに対して、データクレンジング手法を適用。3.経営・経済系のデータベースに対する、データクレンジング手法の適用。4.高度信用リスクデータベースの作成。5.統計モデルによる期待損失モデルの構築。6.賃貸不動産収益・リスクデータベースの作成。7.政府データと信用データの結合。

現在までの達成度 (区分)
現在までの達成度 (区分)

1: 当初の計画以上に進展している

理由

1.機械学習、人工知能的なアルゴリズムによる欠損地位承知対応の方法論を整理した。特に、NAR(not at randum)に関するアプローチのうち、実用性のあるものについて注目した。
2.医療系データベースに対して、データクレンジング手法を適用した。これを実施することにより、それぞれのデータクレンジング手法の得手不得手を把握し、経営財務データへの適用可能性の検討材料とする。
3.経営・経済系のデータベースに対する、データクレンジング手法の適用。これまで経営・経済系に用いられていたデータクレンジング手法の概念にとらわれず、医療系、統計学系、機械学習系など最新の手法を適用した。その結果、それぞれの長短所について把握することができ、データベースの性質とデータクレンジング手法の相性を確認することができた。
4.高度信用リスクデータベースの作成を行った。すでに進めている銀行の与信データベースの高度化は、担保や保証情報、毀損情報など他のデータベースにはない重要なフィールドが含まれている。しかし、欠損値、異常値の存在や複数のデータベースに同一レコードが存在するなど(リレーションの必要性)データクレンジングを正確に適用する必要がある。これは極めて煩雑な作業であり、統計的な処理だけではなく、銀行内の方ハウを用いながら人海戦術的な作業を必要とした。
5.統計モデルによる期待損失モデルの構築を行った。これは銀行における会計基準が徐々に国際会計基準(IFAS)に移行しており、その中で貸倒引当金の計算に必須の事項である。これに対して本研究では有効な示唆を与えるため、多段階モデルや機械学習モデルを構築し、銀行におけるシステム実装を考えた。
6.賃貸不動産収益・リスクデータベースの作成を試みた

今後の研究の推進方策

【第1作業ユニット:山下、野間】臨床データに対するデータクレンジング手法を経営データに対して反映する方法について、より具体的に実証する。
【第2作業ユニット:山下、宮本、一藤、高橋】高度信用リスク統合データベースを活用したデータ構造化手法を検討する。特に、銀行の貸し出し行動を内在化したモデルを構築し、それを生かしたデータクレンジング手法を開発する。また、アパートローンデータについては年6回(滋賀県4回、京都府2回)の調査を実施し、高質パネルデータベースの構築を行う。これを生かし、インターネット上に存在する全国アパートデータの構造化を行う。
【ユニット共通作業】
銀行より入手した高度信用リスク統合データベースと政府統計(経済活動基本調査)のデータリンケージを行う。銀行データは高精度であるがバイアスのあるサンプルデータであり、政府データは精度は低いが全国のセンサスデータである。両者の長所をいかして、情報統合することにより、大規模高質データベースの作成を試みる。そのとき、これまで確定情報による名寄せを行っていた部分を、確率的名寄せ(統計的リレーション)により、より効率的なデータ構造化を行う技術を開発する。

  • 研究成果

    (20件)

すべて 2018 2017

すべて 雑誌論文 (4件) (うち査読あり 4件) 学会発表 (16件) (うち国際学会 1件、 招待講演 6件)

  • [雑誌論文] 多項ロジットモデルを用いた新たな統計的マッチング手法の提案2018

    • 著者名/発表者名
      3)高部勲, 山下智志
    • 雑誌名

      統計学

      巻: 2018年3月号 ページ: 印刷中

    • 査読あり
  • [雑誌論文] When banks venture beyond home turf:consequences for loan performance2017

    • 著者名/発表者名
      Tanoue, Y. and Yamashita, S.
    • 雑誌名

      Journal of Credit Risk

      巻: Vol.13 No.3 ページ: 1-19

    • DOI

      10.21314/JCR.2017.225.

    • 査読あり
  • [雑誌論文] データサイエンスによる大学との 連携・協働、そして発展へ② オープンサイエンスと協働が支える社会・人文学研究の新展開2017

    • 著者名/発表者名
      山下智志, 藤山秋佐夫, 吉野諒三, 越前功, 北本朝展
    • 雑誌名

      文部科学 教育通信

      巻: No.422 ページ: 22-23

    • 査読あり
  • [雑誌論文] Forecasting loss given default of bank loans with multi-stage model2017

    • 著者名/発表者名
      4)Tanoue, Y., kawada, A. and Yamashita, S.
    • 雑誌名

      International Journal of Forecasting

      巻: Vol.33 ページ: 513-522

    • DOI

      10.1016/j.ijforecast.2016.11.005.

    • 査読あり
  • [学会発表] 医療・健康科学における統計リテラシー:情報システム研究機構統計数理研究所の取り組み2018

    • 著者名/発表者名
      山下智志
    • 学会等名
      横幹連合フォーラム
    • 招待講演
  • [学会発表] データベース結合における統計学的問題の分類と定義2018

    • 著者名/発表者名
      山下智志
    • 学会等名
      科研費研究集会
    • 招待講演
  • [学会発表] 多項ロジットモデルを用いた新たな統計的マッチング手法の提案2018

    • 著者名/発表者名
      高部勲, 山下智志
    • 学会等名
      科研費研究集会
  • [学会発表] 先端医学研究の発展を担うデータサイエンス2018

    • 著者名/発表者名
      野間久史
    • 学会等名
      第12回日本統計学会春季集会
  • [学会発表] 銀行-企業間貸出マッチデータを用いた取引関係の変化の要因分析2017

    • 著者名/発表者名
      園田桂子, 山下智志
    • 学会等名
      2017年統計関連学会連合大会
  • [学会発表] 国際ミクロ統計データベースの整備と利用2017

    • 著者名/発表者名
      岡本基, 山下智志
    • 学会等名
      2017年統計関連学会連合大会
  • [学会発表] 多項ロジットモデル及び主成分分析を用いた統計的マッチング手法の提案2017

    • 著者名/発表者名
      高部勲, 山下智志
    • 学会等名
      2017年統計関連学会連合大会
  • [学会発表] 欠測値を含む大規模財務データを用いたコピュラによる企業の信用リスク評価について(Copula-Based Credit Risk Assessment for a Large Scale Small to Medium Enterprises' Financial Data including Missing Values)2017

    • 著者名/発表者名
      宮本道子, 安藤雅和, 山下智志
    • 学会等名
      2017年統計関連学会連合大会
  • [学会発表] 金融機関のリスク管理における人工知能・機械学習(1)2017

    • 著者名/発表者名
      山下智志
    • 学会等名
      CRD信用リスク管理セミナー
    • 招待講演
  • [学会発表] 金融機関のリスク管理における人工知能・機械学習(2)2017

    • 著者名/発表者名
      山下智志
    • 学会等名
      CRD信用リスク管理セミナー
    • 招待講演
  • [学会発表] 多項ロジットモデル及び主成分分析を用いた新たな統計的マッチング手法の提案2017

    • 著者名/発表者名
      高部勲, 山下智志
    • 学会等名
      経済統計学会全国研究大会
  • [学会発表] A New Statistical Matching Methodology Using Multinomial Logistic Regression and Multivariate Analysis2017

    • 著者名/発表者名
      Takabe, I. and Yamashita, S.
    • 学会等名
      International Federation of Classification Societies(IFCS)
    • 国際学会 / 招待講演
  • [学会発表] 非線形・正則化ロジットモデルに基づく企業のデフォルト確率予測2017

    • 著者名/発表者名
      高部勲, 山下智志
    • 学会等名
      JAFEE夏季大会
  • [学会発表] ミクロデータ分析の近未来と我々の役割2017

    • 著者名/発表者名
      山下智志
    • 学会等名
      共同研究集会
    • 招待講演
  • [学会発表] Precision Medicineとビッグデータ,統計科学2017

    • 著者名/発表者名
      野間久史
    • 学会等名
      第56回大分統計談話会大会
  • [学会発表] 臨床研究における欠測データの取り扱いと解析の方法:最近のJAMAの事例から2017

    • 著者名/発表者名
      野間久史
    • 学会等名
      昭和大学実践臨床統計学専門セミナー

URL: 

公開日: 2018-12-17  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi