研究課題/領域番号 |
15H03390
|
研究機関 | 統計数理研究所 |
研究代表者 |
山下 智志 統計数理研究所, データ科学研究系, 教授 (50244108)
|
研究分担者 |
野間 久史 統計数理研究所, データ科学研究系, 准教授 (70633486)
|
研究期間 (年度) |
2015-04-01 – 2019-03-31
|
キーワード | 欠損値補間 / 財務データ / データ構造化 / レセプトデータ / アパートローン / 信用リスク |
研究実績の概要 |
1.欠損値・異常値処理に関する数学的サーベーイ:キャッシュフローデータや企業の財務データは入力システムの非統一性から、欠損値や異常値を含む。欠損・異常の発生は NAR(Not At Random)であり、補完・補正モデルを構築する ことによって適切なデータベースとすることができる。ただし、NAR の研究は統計学でも先端であるため、理論的な整理を行いながら遂行した。 2.医療系データベースに関する欠損値補間のサーベイ:医療レセプトデータや医薬の臨床データをもとに、医療手段や薬品の有効性についての判別モデルのサーベイを行う。特に、データクレンジング技術を用い、判別精度が向上した例について詳しく検討した。 3.経済経営データへのクレンジング技術の導入方法の検討:純数学的な手法や他分野で利用されている手法は、大いに参考になる反面、そのままでは経済経営データに対して利用できるとは限らない。経済経営データ特有のバイアスに対して、既存の手法を改良して、適用可能なもとした。 4.統計的モデルによる期待損失推定モデルの構築:国際会計基準で必要とされるのは期待損失の推計である。正常復帰判別モデル(デフォルト状態の企業が正常企業に復帰する確率を求める)を構築した。 5.賃貸不動産収益・リスクデータベースの作成:賃貸不動産業は他の業種に比較して、基本統計量やリスクモデルのパラメータに特徴があり、特別な手法を適用する必要がある。そのためWebビッグデータと鑑定士による賃貸物件のサーベイ調査を行い、高質小規模データと低質大規模データの混合によるモデル作成を試みた。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
【第1作業ユニット:山下、野間】においては、①クレンジング技術に関する数学的方法論のサーベイ、医療分野におけるクレンジング手法と判別問題のサーベイ、②経済経営データへのクレンジング技術の導入方法の検討を行った。 【第2作業ユニット:山下、宮本、一藤、高橋】においては、高度信用リスク統合データベースのステージ3の仕様作成、高度信用リスク統合データベースの運営管理、信用データに対するクレンジング技術の適用方法の検討、統計的モデルによる期待損失推定モデルの構築を行った。特に注目すべき結果については、低質大規模データと高精度小規模データのリンケージに成功し、それを元に精度の高い欠損値補間方法を提案できた。 【ユニット共通作業:山下、田上、高橋】においては、データ提供者に対するフィードバック、意見調整、年次報告書の作成を行った。特に本年は企業財務データのほかに賃貸不動産業の基礎経営データであるアパート収益性について、データベースの整備を始めた。分析結果については、少量高質データによる予測精度向上がみられ、データ提供者などのステークホルダーに対してフィードバックを行った。
|
今後の研究の推進方策 |
【第1作業ユニット:山下、野間】臨床データに対するデータクレンジング手法を経営データに対して反映する方法について、より具体的に実証する。 【第2作業ユニット:山下、宮本、一藤、高橋】高度信用リスク統合データベースを活用したデータ構造化手法を検討する。特に、銀行の貸し出し行動を内在化したモデルを構築し、それを生かしたデータクレンジング手法を開発する。また、アパートローンデータについては年6回(滋賀県4回、京都府2回)の調査を実施し、高質パネルデータベースの構築を行う。これを生かし、インターネット上に存在する全国アパートデータの構造化を行う。 【ユニット共通作業】 銀行より入手した高度信用リスク統合データベースと政府統計(経済活動基本調査)のデータリンケージを行う。銀行データは高精度であるがバイアスのあるサンプルデータであり、政府データは精度は低いが全国のセンサスデータである。両者の長所をいかして、情報統合することにより、大規模高質データベースの作成を試みる。そのとき、これまで確定情報による名寄せを行っていた部分を、確率的名寄せ(統計的リレーション)により、より効率的なデータ構造化を行う技術を開発する。
|