• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2017 Fiscal Year Annual Research Report

企業の信用力評価のための大規模財務データベースの欠損値補完・異常値処理方法の開発

Research Project

Project/Area Number 15H03390
Research InstitutionThe Institute of Statistical Mathematics

Principal Investigator

山下 智志  統計数理研究所, データ科学研究系, 教授 (50244108)

Co-Investigator(Kenkyū-buntansha) 野間 久史  統計数理研究所, データ科学研究系, 准教授 (70633486)
Project Period (FY) 2015-04-01 – 2019-03-31
Keywords欠損値補間 / 異常値修正 / データクレンジング / データ結合 / 企業データ / 財務データ / 不動産データ / 信用リスク
Outline of Annual Research Achievements

欠損値や異常値が存在する不完全なデータに対する、データクレンジング手法については多くの研究成果がある。しかしそれらの成果は、一定の数学的仮説のもとに成り立つ方法論であり、実際のデータに対して適用可能であるとは限らない。2000年以降は、現実のデータの特性を踏まえた、特定分野を前提としたデータクレンジング手法の提案がなされている。一方、経営財務データについて統合・ビッグデータ化を行っているが、データクレンジング手法の研究は少ない。本研究では、統計学や生物・医療分野で発達した欠損値異常値処理を財務データへの適用を検討し、財務データ特有の性質をもとにした新たな手法を開発する。具体的には、CRD協会データや地銀5行の財務・与信データ、政府調査のミクロデータ、不動産賃貸業データに適用する。これらの正常化されたデータベースのうち、秘匿性の低いデータベースについては研究用に公開する。
さらに今年度から法人統計・事業所統計などの政府データと上記の企業データとの結合に関する方法論を研究し、一定の成果を得ている。
1.欠損値異常値に関する既存研究のサーベイ。2.医療系データベースに対して、データクレンジング手法を適用。3.経営・経済系のデータベースに対する、データクレンジング手法の適用。4.高度信用リスクデータベースの作成。5.統計モデルによる期待損失モデルの構築。6.賃貸不動産収益・リスクデータベースの作成。7.政府データと信用データの結合。

Current Status of Research Progress
Current Status of Research Progress

1: Research has progressed more than it was originally planned.

Reason

1.機械学習、人工知能的なアルゴリズムによる欠損地位承知対応の方法論を整理した。特に、NAR(not at randum)に関するアプローチのうち、実用性のあるものについて注目した。
2.医療系データベースに対して、データクレンジング手法を適用した。これを実施することにより、それぞれのデータクレンジング手法の得手不得手を把握し、経営財務データへの適用可能性の検討材料とする。
3.経営・経済系のデータベースに対する、データクレンジング手法の適用。これまで経営・経済系に用いられていたデータクレンジング手法の概念にとらわれず、医療系、統計学系、機械学習系など最新の手法を適用した。その結果、それぞれの長短所について把握することができ、データベースの性質とデータクレンジング手法の相性を確認することができた。
4.高度信用リスクデータベースの作成を行った。すでに進めている銀行の与信データベースの高度化は、担保や保証情報、毀損情報など他のデータベースにはない重要なフィールドが含まれている。しかし、欠損値、異常値の存在や複数のデータベースに同一レコードが存在するなど(リレーションの必要性)データクレンジングを正確に適用する必要がある。これは極めて煩雑な作業であり、統計的な処理だけではなく、銀行内の方ハウを用いながら人海戦術的な作業を必要とした。
5.統計モデルによる期待損失モデルの構築を行った。これは銀行における会計基準が徐々に国際会計基準(IFAS)に移行しており、その中で貸倒引当金の計算に必須の事項である。これに対して本研究では有効な示唆を与えるため、多段階モデルや機械学習モデルを構築し、銀行におけるシステム実装を考えた。
6.賃貸不動産収益・リスクデータベースの作成を試みた

Strategy for Future Research Activity

【第1作業ユニット:山下、野間】臨床データに対するデータクレンジング手法を経営データに対して反映する方法について、より具体的に実証する。
【第2作業ユニット:山下、宮本、一藤、高橋】高度信用リスク統合データベースを活用したデータ構造化手法を検討する。特に、銀行の貸し出し行動を内在化したモデルを構築し、それを生かしたデータクレンジング手法を開発する。また、アパートローンデータについては年6回(滋賀県4回、京都府2回)の調査を実施し、高質パネルデータベースの構築を行う。これを生かし、インターネット上に存在する全国アパートデータの構造化を行う。
【ユニット共通作業】
銀行より入手した高度信用リスク統合データベースと政府統計(経済活動基本調査)のデータリンケージを行う。銀行データは高精度であるがバイアスのあるサンプルデータであり、政府データは精度は低いが全国のセンサスデータである。両者の長所をいかして、情報統合することにより、大規模高質データベースの作成を試みる。そのとき、これまで確定情報による名寄せを行っていた部分を、確率的名寄せ(統計的リレーション)により、より効率的なデータ構造化を行う技術を開発する。

  • Research Products

    (20 results)

All 2018 2017

All Journal Article (4 results) (of which Peer Reviewed: 4 results) Presentation (16 results) (of which Int'l Joint Research: 1 results,  Invited: 6 results)

  • [Journal Article] 多項ロジットモデルを用いた新たな統計的マッチング手法の提案2018

    • Author(s)
      3)高部勲, 山下智志
    • Journal Title

      統計学

      Volume: 2018年3月号 Pages: 印刷中

    • Peer Reviewed
  • [Journal Article] When banks venture beyond home turf:consequences for loan performance2017

    • Author(s)
      Tanoue, Y. and Yamashita, S.
    • Journal Title

      Journal of Credit Risk

      Volume: Vol.13 No.3 Pages: 1-19

    • DOI

      10.21314/JCR.2017.225.

    • Peer Reviewed
  • [Journal Article] データサイエンスによる大学との 連携・協働、そして発展へ② オープンサイエンスと協働が支える社会・人文学研究の新展開2017

    • Author(s)
      山下智志, 藤山秋佐夫, 吉野諒三, 越前功, 北本朝展
    • Journal Title

      文部科学 教育通信

      Volume: No.422 Pages: 22-23

    • Peer Reviewed
  • [Journal Article] Forecasting loss given default of bank loans with multi-stage model2017

    • Author(s)
      4)Tanoue, Y., kawada, A. and Yamashita, S.
    • Journal Title

      International Journal of Forecasting

      Volume: Vol.33 Pages: 513-522

    • DOI

      10.1016/j.ijforecast.2016.11.005.

    • Peer Reviewed
  • [Presentation] 医療・健康科学における統計リテラシー:情報システム研究機構統計数理研究所の取り組み2018

    • Author(s)
      山下智志
    • Organizer
      横幹連合フォーラム
    • Invited
  • [Presentation] データベース結合における統計学的問題の分類と定義2018

    • Author(s)
      山下智志
    • Organizer
      科研費研究集会
    • Invited
  • [Presentation] 多項ロジットモデルを用いた新たな統計的マッチング手法の提案2018

    • Author(s)
      高部勲, 山下智志
    • Organizer
      科研費研究集会
  • [Presentation] 先端医学研究の発展を担うデータサイエンス2018

    • Author(s)
      野間久史
    • Organizer
      第12回日本統計学会春季集会
  • [Presentation] 銀行-企業間貸出マッチデータを用いた取引関係の変化の要因分析2017

    • Author(s)
      園田桂子, 山下智志
    • Organizer
      2017年統計関連学会連合大会
  • [Presentation] 国際ミクロ統計データベースの整備と利用2017

    • Author(s)
      岡本基, 山下智志
    • Organizer
      2017年統計関連学会連合大会
  • [Presentation] 多項ロジットモデル及び主成分分析を用いた統計的マッチング手法の提案2017

    • Author(s)
      高部勲, 山下智志
    • Organizer
      2017年統計関連学会連合大会
  • [Presentation] 欠測値を含む大規模財務データを用いたコピュラによる企業の信用リスク評価について(Copula-Based Credit Risk Assessment for a Large Scale Small to Medium Enterprises' Financial Data including Missing Values)2017

    • Author(s)
      宮本道子, 安藤雅和, 山下智志
    • Organizer
      2017年統計関連学会連合大会
  • [Presentation] 金融機関のリスク管理における人工知能・機械学習(1)2017

    • Author(s)
      山下智志
    • Organizer
      CRD信用リスク管理セミナー
    • Invited
  • [Presentation] 金融機関のリスク管理における人工知能・機械学習(2)2017

    • Author(s)
      山下智志
    • Organizer
      CRD信用リスク管理セミナー
    • Invited
  • [Presentation] 多項ロジットモデル及び主成分分析を用いた新たな統計的マッチング手法の提案2017

    • Author(s)
      高部勲, 山下智志
    • Organizer
      経済統計学会全国研究大会
  • [Presentation] A New Statistical Matching Methodology Using Multinomial Logistic Regression and Multivariate Analysis2017

    • Author(s)
      Takabe, I. and Yamashita, S.
    • Organizer
      International Federation of Classification Societies(IFCS)
    • Int'l Joint Research / Invited
  • [Presentation] 非線形・正則化ロジットモデルに基づく企業のデフォルト確率予測2017

    • Author(s)
      高部勲, 山下智志
    • Organizer
      JAFEE夏季大会
  • [Presentation] ミクロデータ分析の近未来と我々の役割2017

    • Author(s)
      山下智志
    • Organizer
      共同研究集会
    • Invited
  • [Presentation] Precision Medicineとビッグデータ,統計科学2017

    • Author(s)
      野間久史
    • Organizer
      第56回大分統計談話会大会
  • [Presentation] 臨床研究における欠測データの取り扱いと解析の方法:最近のJAMAの事例から2017

    • Author(s)
      野間久史
    • Organizer
      昭和大学実践臨床統計学専門セミナー

URL: 

Published: 2018-12-17  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi