2017 Fiscal Year Annual Research Report
企業の信用力評価のための大規模財務データベースの欠損値補完・異常値処理方法の開発
Project/Area Number |
15H03390
|
Research Institution | The Institute of Statistical Mathematics |
Principal Investigator |
山下 智志 統計数理研究所, データ科学研究系, 教授 (50244108)
|
Co-Investigator(Kenkyū-buntansha) |
野間 久史 統計数理研究所, データ科学研究系, 准教授 (70633486)
|
Project Period (FY) |
2015-04-01 – 2019-03-31
|
Keywords | 欠損値補間 / 異常値修正 / データクレンジング / データ結合 / 企業データ / 財務データ / 不動産データ / 信用リスク |
Outline of Annual Research Achievements |
欠損値や異常値が存在する不完全なデータに対する、データクレンジング手法については多くの研究成果がある。しかしそれらの成果は、一定の数学的仮説のもとに成り立つ方法論であり、実際のデータに対して適用可能であるとは限らない。2000年以降は、現実のデータの特性を踏まえた、特定分野を前提としたデータクレンジング手法の提案がなされている。一方、経営財務データについて統合・ビッグデータ化を行っているが、データクレンジング手法の研究は少ない。本研究では、統計学や生物・医療分野で発達した欠損値異常値処理を財務データへの適用を検討し、財務データ特有の性質をもとにした新たな手法を開発する。具体的には、CRD協会データや地銀5行の財務・与信データ、政府調査のミクロデータ、不動産賃貸業データに適用する。これらの正常化されたデータベースのうち、秘匿性の低いデータベースについては研究用に公開する。 さらに今年度から法人統計・事業所統計などの政府データと上記の企業データとの結合に関する方法論を研究し、一定の成果を得ている。 1.欠損値異常値に関する既存研究のサーベイ。2.医療系データベースに対して、データクレンジング手法を適用。3.経営・経済系のデータベースに対する、データクレンジング手法の適用。4.高度信用リスクデータベースの作成。5.統計モデルによる期待損失モデルの構築。6.賃貸不動産収益・リスクデータベースの作成。7.政府データと信用データの結合。
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
1.機械学習、人工知能的なアルゴリズムによる欠損地位承知対応の方法論を整理した。特に、NAR(not at randum)に関するアプローチのうち、実用性のあるものについて注目した。 2.医療系データベースに対して、データクレンジング手法を適用した。これを実施することにより、それぞれのデータクレンジング手法の得手不得手を把握し、経営財務データへの適用可能性の検討材料とする。 3.経営・経済系のデータベースに対する、データクレンジング手法の適用。これまで経営・経済系に用いられていたデータクレンジング手法の概念にとらわれず、医療系、統計学系、機械学習系など最新の手法を適用した。その結果、それぞれの長短所について把握することができ、データベースの性質とデータクレンジング手法の相性を確認することができた。 4.高度信用リスクデータベースの作成を行った。すでに進めている銀行の与信データベースの高度化は、担保や保証情報、毀損情報など他のデータベースにはない重要なフィールドが含まれている。しかし、欠損値、異常値の存在や複数のデータベースに同一レコードが存在するなど(リレーションの必要性)データクレンジングを正確に適用する必要がある。これは極めて煩雑な作業であり、統計的な処理だけではなく、銀行内の方ハウを用いながら人海戦術的な作業を必要とした。 5.統計モデルによる期待損失モデルの構築を行った。これは銀行における会計基準が徐々に国際会計基準(IFAS)に移行しており、その中で貸倒引当金の計算に必須の事項である。これに対して本研究では有効な示唆を与えるため、多段階モデルや機械学習モデルを構築し、銀行におけるシステム実装を考えた。 6.賃貸不動産収益・リスクデータベースの作成を試みた
|
Strategy for Future Research Activity |
【第1作業ユニット:山下、野間】臨床データに対するデータクレンジング手法を経営データに対して反映する方法について、より具体的に実証する。 【第2作業ユニット:山下、宮本、一藤、高橋】高度信用リスク統合データベースを活用したデータ構造化手法を検討する。特に、銀行の貸し出し行動を内在化したモデルを構築し、それを生かしたデータクレンジング手法を開発する。また、アパートローンデータについては年6回(滋賀県4回、京都府2回)の調査を実施し、高質パネルデータベースの構築を行う。これを生かし、インターネット上に存在する全国アパートデータの構造化を行う。 【ユニット共通作業】 銀行より入手した高度信用リスク統合データベースと政府統計(経済活動基本調査)のデータリンケージを行う。銀行データは高精度であるがバイアスのあるサンプルデータであり、政府データは精度は低いが全国のセンサスデータである。両者の長所をいかして、情報統合することにより、大規模高質データベースの作成を試みる。そのとき、これまで確定情報による名寄せを行っていた部分を、確率的名寄せ(統計的リレーション)により、より効率的なデータ構造化を行う技術を開発する。
|
Research Products
(20 results)