2015 Fiscal Year Annual Research Report
企業の信用力評価のための大規模財務データベースの欠損値補完・異常値処理方法の開発
Project/Area Number |
15H03390
|
Research Institution | The Institute of Statistical Mathematics |
Principal Investigator |
山下 智志 統計数理研究所, データ科学研究系, 教授 (50244108)
|
Co-Investigator(Kenkyū-buntansha) |
野間 久史 統計数理研究所, データ科学研究系, 助教 (70633486)
|
Project Period (FY) |
2015-04-01 – 2019-03-31
|
Keywords | 経営学 / 経営財務 / データクレンジング / 欠損値補完 / 異常値処理 / MICE / kNN法 |
Outline of Annual Research Achievements |
1.信用データベースの作成と判別モデル:企業の財務データと倒産データを統合した CRD 協会データを活用したデフォルト確率推計モデルを 2003 年に作成したが、担保や保証などの与信データと毀損データがないため、回収不能額を評価した信用リスク計量化をすることができなかった。担保・保証・毀損の情報が含まれるデータベースが存在しないため、複数の銀行の全数データを得て、平成27年度は総合的な信用リスクデータベースの統合作業を引き続き行った。(高度信用リスク統合データベースコンソーシアム:CDSC)。 このプロジェクトの問題点は、大企業と違い、中小企業の財務データには多くの欠損値・ 異常値があり、モデルの精度を極端に低下されていることであったが、データクレンジング法とロバスト推計を組み合わせることによって推計精度の向上が確認できた。 2.欠損値補完方法の検討:上記の信用リスクデータベース関係のプロジェクトの推進時に、データのクレンジング方法の差異によって、判別モデルの予測値や精度が大きく異なることを認識することができた。そのため、経営財務のデータに対して欠損値補完方法の検討を行っている。モデルのフィットを上げる目的に行うシングル補完(single imputation)と分散を保存するマルチ補完(multiple imputation)の2つの方法を試した。データ特有の問題点の多さや、数学的な方法論の脆弱性にかかわらず、欠損値補完においては目標の精度を確保できた。 3.医学データなどの欠損値補完方法の理論的検討:分担者の野間は医療・医薬品データに対する欠損値補完方法や効果の判別問題の数学的評価を行った。
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
【第1作業ユニット:山下、野間】においては、①クレンジング技術に関する数学的方法論のサーベイ、医療分野におけるクレンジング手法と判別問題のサーベイ、②経済経営データへのクレンジング技術の導入方法の検討を行った。 【第2作業ユニット:山下、宮本、一藤、高橋】においては、高度信用リスク統合データベースのステージ3の仕様作成、高度信用リスク統合データベースの運営管理、信用データに対するクレンジング技術の適用方法の検討、統計的モデルによる期待損失推定モデルの構築を行った。特に注目すべき結果については、大規模信用リスク統合データベースであるCRDデータに対してMICEとk-NN法の適用を行い、欠損値補完精度の確認を行うことができた。また高度信用リスク統合データベースコンソーシアムの会合を4回行い、データクレンジングに対して方法論のメニューを提示し、利用者が求める精度やアウトプットフォーマットについて整理を行った。議論の内容については議事録としてまとめている。 【ユニット共通作業:山下、田上、高橋】においては、データ提供者に対するフィードバック、意見調整、年次報告書の作成を行った。本年度からは企業財務データのほかに賃貸不動産業の基礎経営データであるアパート収益性について、データベースの整備を始めた。分析結果については、少量高質データ分の分析結果がまとまることができたため、年度報告版を作成し関係者に配布を行った。
|
Strategy for Future Research Activity |
今後の研究推進方策については推進しているプロジェクトのデータベースごとに記述する。 1)企業財務データと担保・保証・毀損の複合データベースである高度信用リスク統合データベースコンソーシアム:CDSCのデータベースについては、引き続きデータクレンジングと信用リスク推計モデルのパラメータ推計方法の検討を続ける。特に、変数数が多いためスパース推計など最新の統計理論の応用や機械学習などによる効果を確認して、報告する予定である。 2)CRDデータベースにおいてはすでに一定のクレンジングに成功していると見なし、クレンジング効果をモデルの推計精度をもとに検証する。特に、これまでクレンジング精度はインサンプルデータによって行われてきたが、今後は本来のモデルの目的に即した評価方法であるバックテストによる効果を検証する。 3)平成27年度から始めた賃貸不動産業経営データベースにおいては、Webから採取したデータのクレンジングはほとんど行っていない。有効なモデリングのために平成28年度中に基本的なクレンジング方法とロバスト推計を試みる。サーベイデータベースにおいてはある程度の精度をすでに確保しているため、Webデータの教師データとして利用することを検討する。その際、少量高質データと大量低質データの結合に関する方法論を応用可能な一般論として確立することを目指す。 4)医学統計との連携を引き続き続けることにより、特にパネルデータの欠損補完やセンサリングに対する処理について、先端技術を本研究に導入することを試みる。
|
Research Products
(10 results)