2021 Fiscal Year Research-status Report
Financial fraud detection using machine learning
Project/Area Number |
18K01923
|
Research Institution | Hosei University |
Principal Investigator |
坂上 学 法政大学, 経営学部, 教授 (50264792)
|
Project Period (FY) |
2018-04-01 – 2023-03-31
|
Keywords | 監査における機械学習の応用 / テキストマイニング / 有価証券報告書のコーパス / 形態素解析 |
Outline of Annual Research Achievements |
本研究の第4年度は、過年度においておこなった不正会計研究に関する研究動向と、監査における機械学習などAI技術の導入についての研究に加え、実際のデータ操作に必要なデータベース技術やデータの可視化、さらにはテキストマイニングにおける重要語アルゴリズムの最新の動向についての研究をおこなった。これについては、日本会計研究学会の特別委員会「情報関連技術の進展と財務会計に関する研究(中間報告)」の第2章に内容に反映されている。 本年度は、テキストマイニングの最初の段階である形態素解析の作業に取りかかる予定であった。全上場企業の有価証券報告書の全文書を対象として、形態素解析を実施することの意義は、会計情報ディスクロージャーにおける「日本語の品詞タグ付コーパス」(corpus:自然言語処理の研究にもちいるため、自然言語の文書を構造化して大規模に集積したもの)を確定させるという目的があったからである。有価証券報告書で用いられている日本語の品詞タグ付コーパスの全容が明らかになれば、構文解析のために用いられるパラメータの計算ができるようになり、単なる品詞情報だけの状態から、構文解析といったより高度な分析のための基礎データを提供できるようになる。また最終的には格解析(係り受け解析では分からない用言と名詞の関係を解析すること)などへの応用や、コーパスを用いた知識の自動獲得への応用、さらには自然言語処理システムの評価への応用も期待されることになる。 しかしながらこのコーパスの確定には大きな困難が伴い、なかなか研究を進めることができなかった。具体的にはEDINETより入手したデータに欠落が発見され、不足するデータを手作業で補う必要があり、データ整備に多大な時間が取られてしてしまったことと、形態素解析の処理中にエラーが出てしまい最後まで解析することができなかったことである。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
本年度は、実際のデータ解析に進むことができたという点はよかったが、研究実績の概要に記したとおり、データの欠落と形態素解析処理におけるエラーの発生により、具体的な成果(有価証券報告コーパスの完成)を得ることができなかった点については、進展の度合いとしては「やや遅れている」とせざるを得なかった。 データの欠落については、研究者はEDINETデータを自動的にクロールし、ダウンロードをして蓄積するためのソフトウェアを利用しているが、形態素解析処理をするためのテキスト整形処理をしている過程で、2021年7月のデータが3分の1(上旬の5日間と中旬の3日間のデータのみ)しか保存されていないことに気が付いた。現在、欠落しているデータを手動で補っているが、多大な時間を要しており、未だにすべてのデータを入手できていないという現状がある。 また形態素解析処理において、ある程度処理が進んだところで処理が固まってしまうという現象に悩まされ続けた。この報告を書いている現時点においても、すべての文書の形態素解析を終えることができなかった。
|
Strategy for Future Research Activity |
最終となる2022年度については、第4年度(2021年度)できなかった形態素解析を引き続きすすめ、有価証券報告書の全文書に基づく会計コーパスの完成をまず目指すことになる。その上で、当初の計画通り、複数の重要語アルゴリズムに基づいて、年度別に重要語を析出するとともに、当該年度の企業の財務状況との関係を調べることにする予定である。とりわけ会計不正に絡んだ重要語の析出ができれば、本研究の目的のかなりの部分については達成できたことになる。 また会計不正に絡んだ重要語を多く含む企業とそうでない企業の財務データについて、コーパスに基づく知識の獲得(具体的には企業の会計不正発見)ができれば、本研究の目的は達成されることになるだろう。
|
Causes of Carryover |
2021年度の物品費については、データ解析用のワークステーションのメモリ増設などでほぼ計画通りの支出があったが、旅費に関しては全ての学会がオンライン開催となったため、当初計画していた交通費や宿泊費の支出がゼロであったことが、次年度使用額が生じた主な理由である。 2022年度については、コロナ禍が続いている現時点では不透明ではあるが、対面での学会開催が増えるものと見込まれ、研究成果の発表などでの旅費の支出増が見込まれる。しかしながら、一部ではまだ対面ではなくオンラインでの開催をアナウンスしている学会もあり、旅費が使い切れないかもしれない。その場合は、データ解析用のワークステーションのグレードアップをはかるために物品費の支出を増やしたいと考えている。
|
Research Products
(4 results)