2020 Fiscal Year Research-status Report
Financial fraud detection using machine learning
Project/Area Number |
18K01923
|
Research Institution | Hosei University |
Principal Investigator |
坂上 学 法政大学, 経営学部, 教授 (50264792)
|
Project Period (FY) |
2018-04-01 – 2023-03-31
|
Keywords | 会計不正 / 機械学習 / ディープラーニング / テキストマイニング / XBRL |
Outline of Annual Research Achievements |
本研究の第3年度は、過年度においておこなった不正会計研究に関する研究動向を踏まえ、監査における機械学習などAI技術の導入についても研究をすすめてきた。この研究成果は、「監査のテクノロジー環境」(『テクノロジーの進化と監査-AIとデジタル技術が拓く新たな監査の可能性-』第2章所収)として公表した。 また機械学習のアルゴリズムとして、研究計画当初は畳み込みニューラルネットワークを中心に研究を進める予定であったが、会計研究では時系列データを扱う場合が多く、畳み込みニューラルネットワークでは時系列データであまり良い成果が得られないことが経験的に明らかになってきた。さらに自然言語処理の分野では再帰型ニューラルネットワークが高い成果をあげており、時系列データについては回帰型ニューラルネットワークが成果をあげていることも判明した。これについては、「AIを用いた会計研究と機械学習アルゴリズムの理解」(『会計・監査ジャーナル』Vol. 32 No. 12, pp. 647-692)と題する論文としてまとめた。 本研究で行うメインの研究の1つにテキストマイニングがあるが、そのためのデータはEDINETよりダウンロードできるXBRLデータを用いることになる。現行の次世代EDINETにおいては、XBRL化の対象が有価証券報告書全体に拡張されたことに伴い、タクソノミも複雑化しため、EDINETタクソノミについての構造についても研究を行なった。これについては「次世代EDINETタクソノミの構造と課題」(『会計研究の挑戦-理論と制度における「知」の融合』第11章所収)としてまとめている。 以上のほかも、EDINETからの全データ収集と分析のためのデータ整理をおこなってきた。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
今年度より収集したデータを用いての分析をはじめる予定であったが、EDINETより公開されているデータ自体は順調にいったものの、入手したデータの整理に予想以上に多くの時間を費やすことになってしまい、十分な解析作業を実施することができなかったことが大きな要因である。 たとえば2019年のEDINETデータは、各種XBRLデータの他、PDFデータも含めると240GBの容量となり、ファイル数も約130万件に達している。これらのデータの中から、必要となる財務データおよびテキスト情報を選り分けるために、膨大な作業時間が必要となるだけでなく、本研究のために導入したワークステーションではメモリ不足のため、形態素解析などいくつかの解析を進めることができなかった。このため、急遽メモリを増量することにしたが、1モジュール64GBのECCメモリという特殊なメモリが深刻な供給不足に陥り、ようやく導入できたのが年度末であった。 監査におけるAI技術についての研究、機械学習アルゴリズムに関する研究、EDINETタクソノミの構造に関する研究、そしてデータの収集は順調にいったものの、本格的なデータ解析には入れなかったため、進捗状況を「やや遅れている」とした。
|
Strategy for Future Research Activity |
本来であれば第3年度より開始するはずであった分析を第4年度において本格的に開始することにする。具体的には、過去の有価証券報告書よりテキストデータを抽出し、テキストマイニングを試みる。 その前段階として、まずは形態素解析を行わなければならないが、昨年度に計画していた形態素解析器(MeCabおよびJUMAN++)の解析結果の比較を行うことにしたい。有価証券報告書のテキストデータは、多くの会計専門用語が用いられているはずであるが、その語彙の全体像であるコーパスを明らかにし、それを応用した研究としてどのようなものが遂行しうるのかについても検討を行なう予定である。 続いて有価証券報告書のテキストデータより、TF/IDFおよびOkapi BM25といったアルゴリズムを用いて、重要語を抽出する予定である。両者の精度や傾向などを把握したうえで、会計不正にかかわる用語がどのように抽出されるかを、2013年度以降にEDINETを通じて入手したXBRLデータを使って検証する。
|
Causes of Carryover |
本研究に用いるワークステーションのメモリをフル(512GB)に増設するためには、メモリモジュールを3セット購入する必要があったが、1セットあたりの価格が79,431円と高額で細かい調整ができず、若干ながら予算をオーバーしてしまったため。
|
Research Products
(7 results)