Hierarchical Sentiment Polarity Judgement and Explainability for Paragraphs and Sentences in Securities Reports
Project/Area Number |
23K28149
|
Project/Area Number (Other) |
23H03459 (2023)
|
Research Category |
Grant-in-Aid for Scientific Research (B)
|
Allocation Type | Multi-year Fund (2024) Single-year Grants (2023) |
Section | 一般 |
Review Section |
Basic Section 61030:Intelligent informatics-related
Basic Section 60030:Statistical science-related
Sections That Are Subject to Joint Review: Basic Section60030:Statistical science-related , Basic Section61030:Intelligent informatics-related
|
Research Institution | Kyushu University |
Principal Investigator |
池田 大輔 九州大学, システム情報科学研究院, 准教授 (00294992)
|
Co-Investigator(Kenkyū-buntansha) |
大石 桂一 九州大学, 経済学研究院, 教授 (10284605)
姫 艶彦 城西国際大学, 経営情報学部, 助教 (20962864)
原口 健太郎 西南学院大学, 商学部, 准教授 (40846523)
|
Project Period (FY) |
2023-04-01 – 2027-03-31
|
Project Status |
Granted (Fiscal Year 2024)
|
Budget Amount *help |
¥16,120,000 (Direct Cost: ¥12,400,000、Indirect Cost: ¥3,720,000)
Fiscal Year 2026: ¥3,770,000 (Direct Cost: ¥2,900,000、Indirect Cost: ¥870,000)
Fiscal Year 2025: ¥5,330,000 (Direct Cost: ¥4,100,000、Indirect Cost: ¥1,230,000)
Fiscal Year 2024: ¥4,030,000 (Direct Cost: ¥3,100,000、Indirect Cost: ¥930,000)
Fiscal Year 2023: ¥2,990,000 (Direct Cost: ¥2,300,000、Indirect Cost: ¥690,000)
|
Keywords | 極性判定 / トーン判定 / 事前学習モデル / 説明可能性 / 深層学習 / MD&A / 極性辞書 |
Outline of Research at the Start |
極性とは、文がある対象に対し肯定的か否定的かを表し、極性判定とは、例えば、商品レビューの場合、商品に対しレビューが肯定的か否定的かを判断する。 レビューは短文で、極性判断も容易だが、本研究では有価証券報告書の将来に関する見通しを対象に極性判定を行う。対象文書は文、段落、節の構造を持ち、比較的長い文書である。 また、業績を良く見せたいなど、隠れた意図も存在することがある。さらに、このような文書は投資に用いられることを考えると説明可能性の向上も重要である。そこで「このような文書に対する説明可能性の高い極性判定が可能か?」という問いに答えることが本研究の目的である。
|
Outline of Annual Research Achievements |
本研究の目的は『比較的長文で階層構造を持ち、非明示的な意図がある文書に対し、トーンの階層的な分類が可能か?』どうかを明らかにすることであり、有価証券報告書内の「経営者による財政状態、経営成績及びキャッシュ・フローの状況の分析」(Management Discussion and Analysisを略してMD&Aと呼ばれる)に書かれた将来的な見通しがポジティブかどうかの分析、トーン分析(情報系では極性判定とも)を行う。 この目的に至るマイルストーンとして、階層を考えない文書単位および文単位の教師あり学習の両アプローチからの分類を行う。次に、中間の単位である段落単位の分類を行い、最後に、これらを統合した階層的な分類を行う。 2023年度は文単位でのトーン判定を、二つのアプローチで行った。(1)一つは極性辞書を用いたものであり、(2)もう一つは深層学習を用いたアプローチである。(1)では、2004年から2019年までのMD&Aから、これまで研究してきた機械学習の手法により、将来に関する文を抽出し、これらの文から極性辞書を用いてトーンを計測した。さらに、MD&Aにおいて将来に関する見通しの記述がポジティブかネガティブかのトーンは、その企業の将来の業績を実際に予測することに有効であることを明らかにし、論文誌において発表した。(2)では、事前学習モデルと作成した訓練例を用いてファインチューニングを行い、チューニングしたモデルにより、文の単位でトーンの分類を行った。こちらはMD&Aではなく、トーンの判定で一般的なレビューデータを用いており、MD&Aへの適用が今後の課題である。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
当初、文単位のトーン判定と文書単位でのトーン判定から行う予定だったが、前者については、比較的単純な手法である極性辞書を用いた手法を用いて、MD&Aにおけるトーン判定の有用性を示すことができ、論文として発表した。一方で、後者については未着手であるが、後々に行う予定だったが段落単位のトーン判定に役に立つと思われる、文同士の関係を考慮した複雑なトーン判定について、レビューデータを用いて有効性を示すことができたため。
|
Strategy for Future Research Activity |
2024年度は段落単位の文章に対するトーン判定として、既存の手法をサーベイした上で、これらの手法を実装する予定である。MD&Aのデータセットは、まだ文単位でのラベルしか付与されていないので、まずはテキストマイニングや文書分類の分野で用いられている段落単位でのデータセットを調査する。あわせて、MD&Aのデータセットの拡張も行う予定である。手法の実装には、2024年度に購入予定のGPU付きの高性能計算サーバを用いる。また作成した訓練例も、データジャーナルへの投稿した上で、データセットとして公開する予定である。
|
Report
(1 results)
Research Products
(2 results)