2016 Fiscal Year Annual Research Report
企業の信用力評価のための大規模財務データベースの欠損値補完・異常値処理方法の開発
Project/Area Number |
15H03390
|
Research Institution | The Institute of Statistical Mathematics |
Principal Investigator |
山下 智志 統計数理研究所, データ科学研究系, 教授 (50244108)
|
Co-Investigator(Kenkyū-buntansha) |
野間 久史 統計数理研究所, データ科学研究系, 准教授 (70633486)
|
Project Period (FY) |
2015-04-01 – 2019-03-31
|
Keywords | 欠損値補間 / 財務データ / データ構造化 / レセプトデータ / アパートローン / 信用リスク |
Outline of Annual Research Achievements |
1.欠損値・異常値処理に関する数学的サーベーイ:キャッシュフローデータや企業の財務データは入力システムの非統一性から、欠損値や異常値を含む。欠損・異常の発生は NAR(Not At Random)であり、補完・補正モデルを構築する ことによって適切なデータベースとすることができる。ただし、NAR の研究は統計学でも先端であるため、理論的な整理を行いながら遂行した。 2.医療系データベースに関する欠損値補間のサーベイ:医療レセプトデータや医薬の臨床データをもとに、医療手段や薬品の有効性についての判別モデルのサーベイを行う。特に、データクレンジング技術を用い、判別精度が向上した例について詳しく検討した。 3.経済経営データへのクレンジング技術の導入方法の検討:純数学的な手法や他分野で利用されている手法は、大いに参考になる反面、そのままでは経済経営データに対して利用できるとは限らない。経済経営データ特有のバイアスに対して、既存の手法を改良して、適用可能なもとした。 4.統計的モデルによる期待損失推定モデルの構築:国際会計基準で必要とされるのは期待損失の推計である。正常復帰判別モデル(デフォルト状態の企業が正常企業に復帰する確率を求める)を構築した。 5.賃貸不動産収益・リスクデータベースの作成:賃貸不動産業は他の業種に比較して、基本統計量やリスクモデルのパラメータに特徴があり、特別な手法を適用する必要がある。そのためWebビッグデータと鑑定士による賃貸物件のサーベイ調査を行い、高質小規模データと低質大規模データの混合によるモデル作成を試みた。
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
【第1作業ユニット:山下、野間】においては、①クレンジング技術に関する数学的方法論のサーベイ、医療分野におけるクレンジング手法と判別問題のサーベイ、②経済経営データへのクレンジング技術の導入方法の検討を行った。 【第2作業ユニット:山下、宮本、一藤、高橋】においては、高度信用リスク統合データベースのステージ3の仕様作成、高度信用リスク統合データベースの運営管理、信用データに対するクレンジング技術の適用方法の検討、統計的モデルによる期待損失推定モデルの構築を行った。特に注目すべき結果については、低質大規模データと高精度小規模データのリンケージに成功し、それを元に精度の高い欠損値補間方法を提案できた。 【ユニット共通作業:山下、田上、高橋】においては、データ提供者に対するフィードバック、意見調整、年次報告書の作成を行った。特に本年は企業財務データのほかに賃貸不動産業の基礎経営データであるアパート収益性について、データベースの整備を始めた。分析結果については、少量高質データによる予測精度向上がみられ、データ提供者などのステークホルダーに対してフィードバックを行った。
|
Strategy for Future Research Activity |
【第1作業ユニット:山下、野間】臨床データに対するデータクレンジング手法を経営データに対して反映する方法について、より具体的に実証する。 【第2作業ユニット:山下、宮本、一藤、高橋】高度信用リスク統合データベースを活用したデータ構造化手法を検討する。特に、銀行の貸し出し行動を内在化したモデルを構築し、それを生かしたデータクレンジング手法を開発する。また、アパートローンデータについては年6回(滋賀県4回、京都府2回)の調査を実施し、高質パネルデータベースの構築を行う。これを生かし、インターネット上に存在する全国アパートデータの構造化を行う。 【ユニット共通作業】 銀行より入手した高度信用リスク統合データベースと政府統計(経済活動基本調査)のデータリンケージを行う。銀行データは高精度であるがバイアスのあるサンプルデータであり、政府データは精度は低いが全国のセンサスデータである。両者の長所をいかして、情報統合することにより、大規模高質データベースの作成を試みる。そのとき、これまで確定情報による名寄せを行っていた部分を、確率的名寄せ(統計的リレーション)により、より効率的なデータ構造化を行う技術を開発する。
|
Research Products
(18 results)
-
-
-
-
-
[Presentation] データ構造化とは何か?2017
Author(s)
山下智志
Organizer
社会データ構造化センターシンポジウム
Place of Presentation
一橋講堂(東京都千代田区)
Year and Date
2017-02-07 – 2017-02-08
Invited
-
-
-
-
-
-
-
-
-
-
-
-
-