2022 年度実施状況報告書

経済シナリオ分析のための因果関係インスタンス認識技術の確立

研究課題

研究課題/領域番号	21K12010
研究機関	東京大学
研究代表者	坂地泰紀東京大学, 大学院工学系研究科(工学部), 特任講師 (70722809)
研究期間 (年度)	2021-04-01 – 2024-03-31
キーワード	因果関係インスタンス / 事前学習モデル / グラフニューラルネットワーク
研究実績の概要	タグ付けを行った決算短信データ、タグ付与済みの英語ロイターニュース記事、FinCausalのデータセットを用いて因果関係インスタンス抽出実験を行い、日英の文書から因果関係インスタンスを抽出できる手法の開発に取り組んだ。結果的に、BERTとグラフニューラルネットワークを組み合わせることで既存の手法よりも高い精度で因果関係インスタンスを抽出できる手法の開発に成功した。加えて、中国語からの因果関係も検討するために、タグ付けを開始した。また、因果関係インスタンスを抽出する前に行うフィルタリングに関する研究についても、グラフニューラルネットワークを用いる手法を提案し、「BERTとGATを用いた金融テキストにおける因果関係を含む文の判定」というタイトルで言語処理学会年次大会にて発表を行った。因果関係インスタンスを抽出するためにドメイン特化のBERTモデルの構築も行った。作成した事前学習モデルは、Web上で公開しており、誰でも無料で利用可能となっている。こちらに研究に関しては、「Constructing and analyzing domain-specific language model for financial text mining」というタイトルでInformation Processing & ManagementというElsevierの論文誌に採録された。加えて、ドメイン特化の事前学習フレームワークについては、「Gradual Further Pre-training Architecture for Economics/Finance Domain Adaptation of Language Model」というタイトルで、IEEE BigData 2022に採録された。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由開発したモデルが期待以上の性能で因果関係インスタンスを抽出することができた。また、日本語、英語を問わずに高い性能であったことから、言語に依らない手法である。加えて、ドメイン特化の事前学習モデルの構築も行い、その性能評価も進んでおり、モデルの有用性を様々なタスクで示すことができている。さらに、作成した事前学習モデルは、Web上で公開しており、誰でも無料で利用可能となっている。
今後の研究の推進方策	抽出した因果関係インスタンスを用いて、因果チェーンを構築する手法の開発も進める。言語に依存しない手法を構築することで、日本語・英語の両方で因果チェーンを構築する。さらに、日本語と英語の因果関係インスタンスの類似度を算出する手法を開発し、日英にまたがる因果チェーンの構築を目指す。
次年度使用額が生じた理由	使用額に端数が生じたが、無理やり使うことなく、次年度に持ち越した。使用計画としては、物品購入費にあてる予定である。

研究成果
(7件)

すべて 2023 2022 その他

すべて雑誌論文 (1件) (うち査読あり 1件) 学会発表 (4件) (うち国際学会 1件) 備考 (2件)

[雑誌論文] Constructing and analyzing domain-specific language model for financial text mining2023
- 著者名/発表者名
  Masahiro Suzuki, Hiroki Sakaji, Masanori Hirano, Kiyoshi Izumi
- 雑誌名
  
  Information Processing & Management
  
  巻: 60 ページ: 103194～103194
- DOI
  10.1016/j.ipm.2022.103194
- 査読あり
[学会発表] 銘柄特徴と投資家特性を考慮した株式銘柄推薦の個別化2023
- 著者名/発表者名
  高柳剛弘, 坂地泰紀, 和泉潔
- 学会等名
  言語処理学会第29回年次大会(NLP2023)
[学会発表] BERTとGATを用いた金融テキストにおける因果関係を含む文の判定2023
- 著者名/発表者名
  小林涼太郎, 坂地泰紀, 和泉潔
- 学会等名
  言語処理学会第29回年次大会(NLP2023)
[学会発表] Gradual Further Pre-training Architecture for Economics/Finance Domain Adaptation of Language Model2022
- 著者名/発表者名
  Hiroki Sakaji, Masahiro Suzuki, Kiyoshi Izumi, Hiroyuki Mitsugi
- 学会等名
  2022 IEEE International Conference on Big Data (IEEE BigData 2022)
- 国際学会
[学会発表] 個別銘柄情報と銘柄間情報を利用したテーマ株抽出手法の提案2022
- 著者名/発表者名
  高柳剛弘, 坂地泰紀, 和泉潔
- 学会等名
  2022年度人工知能学会全国大会
[備考] Hiroki's page
- URL
  https://testuwaka.net/
[備考] 事前学習言語モデル
- URL
  https://sites.google.com/socsim.org/izumi-lab/tools/language-model

2022 年度 実施状況報告書

経済シナリオ分析のための因果関係インスタンス認識技術の確立

研究代表者

坂地 泰紀 東京大学, 大学院工学系研究科(工学部), 特任講師 (70722809)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] Constructing and analyzing domain-specific language model for financial text mining2023

著者名/発表者名

雑誌名

DOI

[学会発表] 銘柄特徴と投資家特性を考慮した株式銘柄推薦の個別化2023

著者名/発表者名

学会等名

[学会発表] BERTとGATを用いた金融テキストにおける因果関係を含む文の判定2023

著者名/発表者名

学会等名

[学会発表] Gradual Further Pre-training Architecture for Economics/Finance Domain Adaptation of Language Model2022

著者名/発表者名

学会等名

[学会発表] 個別銘柄情報と銘柄間情報を利用したテーマ株抽出手法の提案2022

著者名/発表者名

学会等名

[備考] Hiroki's page

URL

[備考] 事前学習言語モデル

URL

2022 年度実施状況報告書

坂地泰紀東京大学, 大学院工学系研究科(工学部), 特任講師 (70722809)