• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2020 Fiscal Year Research-status Report

Financial fraud detection using machine learning

Research Project

Project/Area Number 18K01923
Research InstitutionHosei University

Principal Investigator

坂上 学  法政大学, 経営学部, 教授 (50264792)

Project Period (FY) 2018-04-01 – 2023-03-31
Keywords会計不正 / 機械学習 / ディープラーニング / テキストマイニング / XBRL
Outline of Annual Research Achievements

本研究の第3年度は、過年度においておこなった不正会計研究に関する研究動向を踏まえ、監査における機械学習などAI技術の導入についても研究をすすめてきた。この研究成果は、「監査のテクノロジー環境」(『テクノロジーの進化と監査-AIとデジタル技術が拓く新たな監査の可能性-』第2章所収)として公表した。
また機械学習のアルゴリズムとして、研究計画当初は畳み込みニューラルネットワークを中心に研究を進める予定であったが、会計研究では時系列データを扱う場合が多く、畳み込みニューラルネットワークでは時系列データであまり良い成果が得られないことが経験的に明らかになってきた。さらに自然言語処理の分野では再帰型ニューラルネットワークが高い成果をあげており、時系列データについては回帰型ニューラルネットワークが成果をあげていることも判明した。これについては、「AIを用いた会計研究と機械学習アルゴリズムの理解」(『会計・監査ジャーナル』Vol. 32 No. 12, pp. 647-692)と題する論文としてまとめた。
本研究で行うメインの研究の1つにテキストマイニングがあるが、そのためのデータはEDINETよりダウンロードできるXBRLデータを用いることになる。現行の次世代EDINETにおいては、XBRL化の対象が有価証券報告書全体に拡張されたことに伴い、タクソノミも複雑化しため、EDINETタクソノミについての構造についても研究を行なった。これについては「次世代EDINETタクソノミの構造と課題」(『会計研究の挑戦-理論と制度における「知」の融合』第11章所収)としてまとめている。
以上のほかも、EDINETからの全データ収集と分析のためのデータ整理をおこなってきた。

Current Status of Research Progress
Current Status of Research Progress

3: Progress in research has been slightly delayed.

Reason

今年度より収集したデータを用いての分析をはじめる予定であったが、EDINETより公開されているデータ自体は順調にいったものの、入手したデータの整理に予想以上に多くの時間を費やすことになってしまい、十分な解析作業を実施することができなかったことが大きな要因である。
たとえば2019年のEDINETデータは、各種XBRLデータの他、PDFデータも含めると240GBの容量となり、ファイル数も約130万件に達している。これらのデータの中から、必要となる財務データおよびテキスト情報を選り分けるために、膨大な作業時間が必要となるだけでなく、本研究のために導入したワークステーションではメモリ不足のため、形態素解析などいくつかの解析を進めることができなかった。このため、急遽メモリを増量することにしたが、1モジュール64GBのECCメモリという特殊なメモリが深刻な供給不足に陥り、ようやく導入できたのが年度末であった。
監査におけるAI技術についての研究、機械学習アルゴリズムに関する研究、EDINETタクソノミの構造に関する研究、そしてデータの収集は順調にいったものの、本格的なデータ解析には入れなかったため、進捗状況を「やや遅れている」とした。

Strategy for Future Research Activity

本来であれば第3年度より開始するはずであった分析を第4年度において本格的に開始することにする。具体的には、過去の有価証券報告書よりテキストデータを抽出し、テキストマイニングを試みる。
その前段階として、まずは形態素解析を行わなければならないが、昨年度に計画していた形態素解析器(MeCabおよびJUMAN++)の解析結果の比較を行うことにしたい。有価証券報告書のテキストデータは、多くの会計専門用語が用いられているはずであるが、その語彙の全体像であるコーパスを明らかにし、それを応用した研究としてどのようなものが遂行しうるのかについても検討を行なう予定である。
続いて有価証券報告書のテキストデータより、TF/IDFおよびOkapi BM25といったアルゴリズムを用いて、重要語を抽出する予定である。両者の精度や傾向などを把握したうえで、会計不正にかかわる用語がどのように抽出されるかを、2013年度以降にEDINETを通じて入手したXBRLデータを使って検証する。

Causes of Carryover

本研究に用いるワークステーションのメモリをフル(512GB)に増設するためには、メモリモジュールを3セット購入する必要があったが、1セットあたりの価格が79,431円と高額で細かい調整ができず、若干ながら予算をオーバーしてしまったため。

  • Research Products

    (7 results)

All 2021 2020 Other

All Journal Article (2 results) Book (4 results) Remarks (1 results)

  • [Journal Article] 研究方法のパラダイムシフトに向けて2021

    • Author(s)
      坂上 学
    • Journal Title

      企業会計

      Volume: 73 Pages: 44-45

  • [Journal Article] AIを用いた会計研究と機械学習アルゴリズムの理解2020

    • Author(s)
      坂上 学
    • Journal Title

      会計・監査ジャーナル

      Volume: 32 Pages: 647-692

  • [Book] AI時代に複式簿記は終焉するか2021

    • Author(s)
      岩崎勇編著
    • Total Pages
      168
    • Publisher
      税務経理協会
    • ISBN
      978-4419067717
  • [Book] 会計のヒストリー802020

    • Author(s)
      野口昌良・清水泰洋・中村恒彦・本間正人・北浦貴士編著
    • Total Pages
      187
    • Publisher
      中央経済社
    • ISBN
      978-4502336713
  • [Book] 日本監査研究学会リサーチシリーズⅩⅧ テクノロジーの進化と監査-AIとデジタル技術が拓く新たな監査の可能性-2020

    • Author(s)
      瀧博編著
    • Total Pages
      278
    • Publisher
      同文舘出版
    • ISBN
      978-4495210151
  • [Book] 会計研究の挑戦-理論と制度における「知」の融合2020

    • Author(s)
      河﨑照行編著
    • Total Pages
      496
    • Publisher
      中央経済社
    • ISBN
      978-4502357411
  • [Remarks] 「坂上学の業績一覧」『法政大学経営学部 坂上学研究室』

    • URL

      http://www.sakauelab.org/research/works/

URL: 

Published: 2021-12-27  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi