研究課題/領域番号 |
23K01677
|
研究機関 | 青山学院大学 |
研究代表者 |
矢澤 憲一 青山学院大学, 経営学部, 教授 (70406817)
|
研究期間 (年度) |
2023-04-01 – 2026-03-31
|
キーワード | 会計不正 / 機械学習 / 有価証券報告書 |
研究実績の概要 |
2023年(1年目)は、教師データの作成とインプットデータの収集、前処理、特徴量の抽出という基礎的な作業を実施した。本研究では、有価証券報告書に記載されている重要な記述情報(「経営方針、経営環境及び対処すべき課題等」「経営者による財政状態、経営成績およびキャッシュ・フローの状況」「事業等のリスク」「コーポレート・ガバナンスの状況」)を主たるインプットデータとして取り上げた。分析対象としては、データの開示実務が比較的安定している2010年3月期以降から、COVID-19の影響が顕著になる前の2019年3月期までの期間を選定した。この期間のテキストデータを収集し、データの前処理と特徴量抽出を丁寧に実施した。前処理の段階では、HTMデータからテキストデータを抽出し、その後、データの前処理(クリーニングや正規化など)の作業を行った。そして、特徴量としては、文字数、文章数、単語数、トーン、可読性、固有表現などを抽出した。これらの特徴量を更に財務データや会計不正の有無を示すフラグと統合し、解析に使用するためのデータベースを作成した。なお、これら一連のステップはすべてPythonによるコードとして自動化されている。次の2024年(2年目)は、これらのデータを用いて、深層学習を含む機械学習モデルでの学習を行い、学術会議での発表準備を進める予定である。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
研究協力者であるKPMGあずさ研究チームとの協働のもと、研究計画に沿った活動が実施できている。
|
今後の研究の推進方策 |
1年目は概ね研究計画通りに進んでいるため、今後も研究協力者と緊密な連携を取りながら、研究の深化に努めていく。 具体的に2024年(2年目)は教師データとインプットデータを用いて、統計解析および機械学習を実施する。ターゲットデータは不正会計の有無、インプットデータは財務変数とテキスト変数である。テキスト変数の特徴量はトーン、可読性、固有表現をそれぞれ変数化したものを使用し、さらにその他の特徴量についても検討する。 統計解析はロジスティック回帰(LR)、機械学習はK-近傍法、ロジスティック回帰、決定木、ランダムフォレスト、勾配ブースティング、深層学習はLSTM、GRU、Transformerモデルを中心に検討する。統計解析と機械学習はその解釈とパフォーマンス評価を通して精度の向上を図る。
|
次年度使用額が生じた理由 |
研究を進める中で、テキスト分析ソフトであるNVivoを用いたテキスト分析について検討する必要が生じたため、同ソフトを購入した。そのため、全体の使用計画を調整し、今年度購入予定であったノートPCを次年度の予算に回すことに変更した。なお、ノートPCの購入については次年度、改めて研究計画の全体をみながら検討する。
|