有価証券報告書内の段落、文に対する階層的な将来見通しのトーン判定と説明可能性

研究課題

研究課題/領域番号	23K28149
補助金の研究課題番号	23H03459 (2023)
研究種目	基盤研究(B)
配分区分	基金 (2024) 補助金 (2023)
応募区分	一般
審査区分	小区分61030:知能情報学関連小区分60030:統計科学関連合同審査対象区分:小区分60030:統計科学関連、小区分61030:知能情報学関連
研究機関	九州大学
研究代表者	池田大輔九州大学, システム情報科学研究院, 准教授 (00294992)
研究分担者	大石桂一九州大学, 経済学研究院, 教授 (10284605) 姫艶彦城西国際大学, 経営情報学部, 助教 (20962864) 原口健太郎西南学院大学, 商学部, 准教授 (40846523)
研究期間 (年度)	2023-04-01 – 2027-03-31
研究課題ステータス	交付 (2024年度)
配分額 *注記	16,120千円 (直接経費: 12,400千円、間接経費: 3,720千円) 2026年度: 3,770千円 (直接経費: 2,900千円、間接経費: 870千円) 2025年度: 5,330千円 (直接経費: 4,100千円、間接経費: 1,230千円) 2024年度: 4,030千円 (直接経費: 3,100千円、間接経費: 930千円) 2023年度: 2,990千円 (直接経費: 2,300千円、間接経費: 690千円)
キーワード	極性判定 / トーン判定 / 事前学習モデル / 説明可能性 / 深層学習 / MD&A / 極性辞書
研究開始時の研究の概要	極性とは、文がある対象に対し肯定的か否定的かを表し、極性判定とは、例えば、商品レビューの場合、商品に対しレビューが肯定的か否定的かを判断する。レビューは短文で、極性判断も容易だが、本研究では有価証券報告書の将来に関する見通しを対象に極性判定を行う。対象文書は文、段落、節の構造を持ち、比較的長い文書である。また、業績を良く見せたいなど、隠れた意図も存在することがある。さらに、このような文書は投資に用いられることを考えると説明可能性の向上も重要である。そこで「このような文書に対する説明可能性の高い極性判定が可能か？」という問いに答えることが本研究の目的である。
研究実績の概要	本研究の目的は『比較的長文で階層構造を持ち、非明示的な意図がある文書に対し、トーンの階層的な分類が可能か?』どうかを明らかにすることであり、有価証券報告書内の「経営者による財政状態、経営成績及びキャッシュ・フローの状況の分析」(Management Discussion and Analysisを略してMD&Aと呼ばれる)に書かれた将来的な見通しがポジティブかどうかの分析、トーン分析（情報系では極性判定とも）を行う。この目的に至るマイルストーンとして、階層を考えない文書単位および文単位の教師あり学習の両アプローチからの分類を行う。次に、中間の単位である段落単位の分類を行い、最後に、これらを統合した階層的な分類を行う。 2023年度は文単位でのトーン判定を、二つのアプローチで行った。(1)一つは極性辞書を用いたものであり、(2)もう一つは深層学習を用いたアプローチである。(1)では、2004年から2019年までのMD&Aから、これまで研究してきた機械学習の手法により、将来に関する文を抽出し、これらの文から極性辞書を用いてトーンを計測した。さらに、MD&Aにおいて将来に関する見通しの記述がポジティブかネガティブかのトーンは、その企業の将来の業績を実際に予測することに有効であることを明らかにし、論文誌において発表した。(2)では、事前学習モデルと作成した訓練例を用いてファインチューニングを行い、チューニングしたモデルにより、文の単位でトーンの分類を行った。こちらはMD&Aではなく、トーンの判定で一般的なレビューデータを用いており、MD&Aへの適用が今後の課題である。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由当初、文単位のトーン判定と文書単位でのトーン判定から行う予定だったが、前者については、比較的単純な手法である極性辞書を用いた手法を用いて、MD&Aにおけるトーン判定の有用性を示すことができ、論文として発表した。一方で、後者については未着手であるが、後々に行う予定だったが段落単位のトーン判定に役に立つと思われる、文同士の関係を考慮した複雑なトーン判定について、レビューデータを用いて有効性を示すことができたため。
今後の研究の推進方策	2024年度は段落単位の文章に対するトーン判定として、既存の手法をサーベイした上で、これらの手法を実装する予定である。MD&Aのデータセットは、まだ文単位でのラベルしか付与されていないので、まずはテキストマイニングや文書分類の分野で用いられている段落単位でのデータセットを調査する。あわせて、MD&Aのデータセットの拡張も行う予定である。手法の実装には、2024年度に購入予定のGPU付きの高性能計算サーバを用いる。また作成した訓練例も、データジャーナルへの投稿した上で、データセットとして公開する予定である。

報告書

(1件)

2023 実績報告書

研究成果
(2件)

すべて雑誌論文 (1件) (うち査読あり 1件) 学会発表 (1件) (うち国際学会 1件)

[雑誌論文] 「MD&Aにおける将来志向情報のトーンの有用性：極性辞書を用いた分析2023
- 著者名/発表者名
  姫艶彦、池田大輔
- 雑誌名
  
  経済学研究
  
  巻: 第90巻第2・3・4合併号ページ: 35-51
- 関連する報告書
  2023 実績報告書
- 査読あり
[学会発表] Analysis of Emotions from the Word-of-Mouth of the Elderly2023
- 著者名/発表者名
  Eriko Musashi, Shingo Katou, Takaaki Hosoda, Daisuke Ikeda
- 学会等名
  1st International Conference on ICT Application Research (IAR 2023)
- 関連する報告書
  2023 実績報告書
- 国際学会