2018 Fiscal Year Annual Research Report
Development of missing value complement / outlier treatment method for large scale financial database for corporate credit risk evaluation
Project/Area Number |
15H03390
|
Research Institution | The Institute of Statistical Mathematics |
Principal Investigator |
山下 智志 統計数理研究所, データ科学研究系, 教授 (50244108)
|
Co-Investigator(Kenkyū-buntansha) |
野間 久史 統計数理研究所, データ科学研究系, 准教授 (70633486)
|
Project Period (FY) |
2015-04-01 – 2019-03-31
|
Keywords | 欠損値補間 / 異常値修正 / データクレンジング / データ結合 / 信用データ / 財務データ / 不動産データ / 公的ミクロデータ |
Outline of Annual Research Achievements |
欠損値や異常値が存在する不完全なデータに対する、データクレンジング手法については多くの研究成果がある。しかしそれらの成果は、一定の数学的仮説のもとに成り立つ方法論であり、実際のデータに対して適用可能であるとは限らない。2000年以降は、現実のデータの特性を踏まえた、特定分野を前提としたデータクレンジング手法の提案がなされている。一方、経営財務データについて統合・ビッグデータ化を行っているが、データクレンジング手法の研究は少ない。本研究では、統計学や生物・医療分野で発達した欠損値異常値処理を財務データへの適用を検討し、財務データ特有の性質を基にした新たな手法を開発する。具体的には、CRD協会データや地銀5行の財務・与信データ、政府調査のミクロデータ、不動産賃貸業データに適用する。これらの正常化されたデータベースのうち、 秘匿性の低いデータベースについては研究用に公開する。さらに昨年度から法人統計・事業所統計などの政府データと上記の企業データとの結合に関する方法論を研究し、高い精度のデータ結合を実現した。また、アルゴリズムの開発により実用的な速度でデータベース結合を可能とした。これによって企業の全数データである政府統計データと、サンプル標本ではあるが高質である信用データを基にした、企業プロファイリングが可能となった。 1.欠損値異常値に関する既存研究のサーベイ。2.医療系データベースに対して、データクレンジング手法を適用。3.経営・経済系のデータベースに対する、データクレンジング手法の適用。4.高度信用リスクデータベースの作成。5.統計モデルによる期待損失モデルの構築。6.賃貸不動産収益・リスクデー タベースの作成。7.政府データと信用データの結合。
|
Research Progress Status |
平成30年度が最終年度であるため、記入しない。
|
Strategy for Future Research Activity |
平成30年度が最終年度であるため、記入しない。
|
Research Products
(9 results)