研究課題/領域番号 |
21K12010
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分61030:知能情報学関連
|
研究機関 | 東京大学 |
研究代表者 |
坂地 泰紀 東京大学, 大学院工学系研究科(工学部), 特任講師 (70722809)
|
研究期間 (年度) |
2021-04-01 – 2024-03-31
|
研究課題ステータス |
交付 (2022年度)
|
配分額 *注記 |
3,770千円 (直接経費: 2,900千円、間接経費: 870千円)
2023年度: 650千円 (直接経費: 500千円、間接経費: 150千円)
2022年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円)
2021年度: 1,820千円 (直接経費: 1,400千円、間接経費: 420千円)
|
キーワード | 因果関係インスタンス / 事前学習モデル / グラフニューラルネットワーク / テキストマイニング / 因果関係 / 因果関係インスタンス認識 / 社会イベント分析 |
研究開始時の研究の概要 |
本研究の目的は、日本語・英語問わず、様々な金融テキストデータから、因果関係インスタンスを認識することで、社会イベント発生から個々の影響へのパスを明らかにすることである。これを達成するために、個々の因果関係インスタンスを認識する技術、抽出した因果関係インスタンスを用いて正確に因果チェーンを構築する技術の開発を行う。加えて、構築した因果チェーンを用いて国、地域、企業と異なる立場に基づくシナリオ分析可能なフレームワークを構築する。
|
研究実績の概要 |
タグ付けを行った決算短信データ、タグ付与済みの英語ロイターニュース記事、FinCausalのデータセットを用いて因果関係インスタンス抽出実験を行い、日英の文書から因果関係インスタンスを抽出できる手法の開発に取り組んだ。結果的に、BERTとグラフニューラルネットワークを組み合わせることで既存の手法よりも高い精度で因果関係インスタンスを抽出できる手法の開発に成功した。加えて、中国語からの因果関係も検討するために、タグ付けを開始した。 また、因果関係インスタンスを抽出する前に行うフィルタリングに関する研究についても、グラフニューラルネットワークを用いる手法を提案し、「BERTとGATを用いた金融テキストにおける因果関係を含む文の判定」というタイトルで言語処理学会年次大会にて発表を行った。 因果関係インスタンスを抽出するためにドメイン特化のBERTモデルの構築も行った。作成した事前学習モデルは、Web上で公開しており、誰でも無料で利用可能となっている。こちらに研究に関しては、「Constructing and analyzing domain-specific language model for financial text mining」というタイトルでInformation Processing & ManagementというElsevierの論文誌に採録された。加えて、ドメイン特化の事前学習フレームワークについては、「Gradual Further Pre-training Architecture for Economics/Finance Domain Adaptation of Language Model」というタイトルで、IEEE BigData 2022に採録された。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
開発したモデルが期待以上の性能で因果関係インスタンスを抽出することができた。また、日本語、英語を問わずに高い性能であったことから、言語に依らない手法である。 加えて、ドメイン特化の事前学習モデルの構築も行い、その性能評価も進んでおり、モデルの有用性を様々なタスクで示すことができている。 さらに、作成した事前学習モデルは、Web上で公開しており、誰でも無料で利用可能となっている。
|
今後の研究の推進方策 |
抽出した因果関係インスタンスを用いて、因果チェーンを構築する手法の開発も進める。言語に依存しない手法を構築することで、日本語・英語の両方で因果チェーンを構築する。さらに、日本語と英語の因果関係インスタンスの類似度を算出する手法を開発し、日英にまたがる因果チェーンの構築を目指す。
|