研究課題/領域番号 |
23K28149
|
補助金の研究課題番号 |
23H03459 (2023)
|
研究種目 |
基盤研究(B)
|
配分区分 | 基金 (2024) 補助金 (2023) |
応募区分 | 一般 |
審査区分 |
小区分61030:知能情報学関連
小区分60030:統計科学関連
合同審査対象区分:小区分60030:統計科学関連、小区分61030:知能情報学関連
|
研究機関 | 九州大学 |
研究代表者 |
池田 大輔 九州大学, システム情報科学研究院, 准教授 (00294992)
|
研究分担者 |
大石 桂一 九州大学, 経済学研究院, 教授 (10284605)
姫 艶彦 城西国際大学, 経営情報学部, 助教 (20962864)
原口 健太郎 西南学院大学, 商学部, 准教授 (40846523)
|
研究期間 (年度) |
2023-04-01 – 2027-03-31
|
研究課題ステータス |
交付 (2024年度)
|
配分額 *注記 |
16,120千円 (直接経費: 12,400千円、間接経費: 3,720千円)
2026年度: 3,770千円 (直接経費: 2,900千円、間接経費: 870千円)
2025年度: 5,330千円 (直接経費: 4,100千円、間接経費: 1,230千円)
2024年度: 4,030千円 (直接経費: 3,100千円、間接経費: 930千円)
2023年度: 2,990千円 (直接経費: 2,300千円、間接経費: 690千円)
|
キーワード | 極性判定 / トーン判定 / 事前学習モデル / 説明可能性 / 深層学習 / MD&A / 極性辞書 |
研究開始時の研究の概要 |
極性とは、文がある対象に対し肯定的か否定的かを表し、極性判定とは、例えば、商品レビューの場合、商品に対しレビューが肯定的か否定的かを判断する。 レビューは短文で、極性判断も容易だが、本研究では有価証券報告書の将来に関する見通しを対象に極性判定を行う。対象文書は文、段落、節の構造を持ち、比較的長い文書である。 また、業績を良く見せたいなど、隠れた意図も存在することがある。さらに、このような文書は投資に用いられることを考えると説明可能性の向上も重要である。そこで「このような文書に対する説明可能性の高い極性判定が可能か?」という問いに答えることが本研究の目的である。
|
研究実績の概要 |
本研究の目的は『比較的長文で階層構造を持ち、非明示的な意図がある文書に対し、トーンの階層的な分類が可能か?』どうかを明らかにすることであり、有価証券報告書内の「経営者による財政状態、経営成績及びキャッシュ・フローの状況の分析」(Management Discussion and Analysisを略してMD&Aと呼ばれる)に書かれた将来的な見通しがポジティブかどうかの分析、トーン分析(情報系では極性判定とも)を行う。 この目的に至るマイルストーンとして、階層を考えない文書単位および文単位の教師あり学習の両アプローチからの分類を行う。次に、中間の単位である段落単位の分類を行い、最後に、これらを統合した階層的な分類を行う。 2023年度は文単位でのトーン判定を、二つのアプローチで行った。(1)一つは極性辞書を用いたものであり、(2)もう一つは深層学習を用いたアプローチである。(1)では、2004年から2019年までのMD&Aから、これまで研究してきた機械学習の手法により、将来に関する文を抽出し、これらの文から極性辞書を用いてトーンを計測した。さらに、MD&Aにおいて将来に関する見通しの記述がポジティブかネガティブかのトーンは、その企業の将来の業績を実際に予測することに有効であることを明らかにし、論文誌において発表した。(2)では、事前学習モデルと作成した訓練例を用いてファインチューニングを行い、チューニングしたモデルにより、文の単位でトーンの分類を行った。こちらはMD&Aではなく、トーンの判定で一般的なレビューデータを用いており、MD&Aへの適用が今後の課題である。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
当初、文単位のトーン判定と文書単位でのトーン判定から行う予定だったが、前者については、比較的単純な手法である極性辞書を用いた手法を用いて、MD&Aにおけるトーン判定の有用性を示すことができ、論文として発表した。一方で、後者については未着手であるが、後々に行う予定だったが段落単位のトーン判定に役に立つと思われる、文同士の関係を考慮した複雑なトーン判定について、レビューデータを用いて有効性を示すことができたため。
|
今後の研究の推進方策 |
2024年度は段落単位の文章に対するトーン判定として、既存の手法をサーベイした上で、これらの手法を実装する予定である。MD&Aのデータセットは、まだ文単位でのラベルしか付与されていないので、まずはテキストマイニングや文書分類の分野で用いられている段落単位でのデータセットを調査する。あわせて、MD&Aのデータセットの拡張も行う予定である。手法の実装には、2024年度に購入予定のGPU付きの高性能計算サーバを用いる。また作成した訓練例も、データジャーナルへの投稿した上で、データセットとして公開する予定である。
|