大規模企業財務データの網羅性向上に向けた機械学習によるレプリケート技術の開発
Project/Area Number |
22K04609
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 25010:Social systems engineering-related
|
Research Institution | Kanazawa Gakuin University |
Principal Investigator |
藤本 祥二 金沢学院大学, 経済情報学部, 教授 (10756026)
|
Co-Investigator(Kenkyū-buntansha) |
石川 温 金沢学院大学, 経済情報学部, 教授 (90308627)
|
Project Period (FY) |
2022-04-01 – 2026-03-31
|
Project Status |
Granted (Fiscal Year 2022)
|
Budget Amount *help |
¥4,160,000 (Direct Cost: ¥3,200,000、Indirect Cost: ¥960,000)
Fiscal Year 2025: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
Fiscal Year 2024: ¥2,210,000 (Direct Cost: ¥1,700,000、Indirect Cost: ¥510,000)
Fiscal Year 2023: ¥520,000 (Direct Cost: ¥400,000、Indirect Cost: ¥120,000)
Fiscal Year 2022: ¥390,000 (Direct Cost: ¥300,000、Indirect Cost: ¥90,000)
|
Keywords | 企業財務データ / 機械学習 / レプリケート |
Outline of Research at the Start |
不完全性/非代表性/多ノイズ性などビッグデータ科学の問題解決のため、申請者らがこれまで培ってきた統計性の知見により内挿だけでなく外挿が可能となる企業財務データの、機械学習によるレプリケート技術を開発する。 この目的達成のため「財務ビッグデータの欠損値の統計性の調査による、データの網羅性の明確化」「欠損値補完モデルの機械学習を用いた構築による高精度化」「欠損を補完した網羅性の高いデータの統計性を確認することによる整合性の確認」「欠損値補完モデルのライブラリ、および作成したレプリカデータの公開」を段階的に行う。
|
Outline of Annual Research Achievements |
本研究ではビッグデータ科学におけるデータの不完全性(研究に必要なデータがしばしば欠けている)・非代表性(母集団からのランダムサンプルではない)・多ノイズ性(様々なノイズが含まれていてクリーニングが容易でない)・センシティブ(個人情報ななどど取り扱いが難しいデータがある)などの問題解決を図るため、企業財務ビッグデータを用いて内挿だけでなく外挿が可能となるデータのレプリケート技術を開発する。 この目的を達成するために、財務ビッグデータの欠損値の統計性の調査によってデータの網羅性を明らかにし、機械学習を用いた欠損値補完モデルを構築しモデルの精度を高め、欠損を補完したデータの整合性を網羅性の高いデータの統計性で確認し、最終的には欠損値補完モデルのライブラリおよび作成したレプリカデータの公開を行う。 令和4年度は欠損値の統計性の調査するために現在保有している財務ビッグデータでるORBISの2016年版と2021年版を結合し、全企業毎に決算年に関する通年データとなるようにデータの整備を行った。そのうえで欠損値の統計性の調査を行いデータの網羅性を調査した結果、欠損値の統計性の国による違いを明らかにした。 また同時に、決定木系の回帰モデルの一つであるCatBoostアルゴリズムの機械学習を用いた欠損値補完モデルの構築を行い。さらに構築したモデルを用いて財務諸表の売上と利益に関する欠損値の補間を実行し、補完後の分布の性質を調査し、結果を学術論文として発表した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
研究成果を査読付き論文にまとめており、当初の研究計画通りに進展している。
|
Strategy for Future Research Activity |
モデルの寄与率を上げる重要な説明変数の特定し、モデルの精度を高めるとともに主要説明変数のみを用いた欠損値補完モデルを開発する。
|
Report
(1 results)
Research Products
(7 results)