2021 年度実施状況報告書

経済シナリオ分析のための因果関係インスタンス認識技術の確立

研究課題

研究課題/領域番号	21K12010
研究機関	東京大学
研究代表者	坂地泰紀東京大学, 大学院工学系研究科(工学部), 特任講師 (70722809)
研究期間 (年度)	2021-04-01 – 2024-03-31
キーワード	因果関係インスタンス / 事前学習モデル / グラフニューラルネットワーク
研究実績の概要	本年度は、まず、因果関係インスタンスを取得するために、決算短信に対してタグ付与を行った。その後、タグ付けを行った決算短信データ、タグ付与済みの英語ロイターニュース記事、FinCausalのデータセットを用いて実験を行い、日英の文書から因果関係インスタンスを抽出できる手法の開発に取り組んだ。結果的に、BERTとグラフニューラルネットワークを組み合わせることで既存の手法よりも高い精度で因果関係インスタンスを抽出できる手法の開発に成功した。具体的には、全てのデータセットにおいて、F値が0.75以上で因果関係インスタンスを抽出することができた。この結果を論文としてまとめて国際会議に投稿したが、残念ながら不採録となった。そのため、2022年度は論文のブラッシュアップを行い、再度、投稿を行う。因果関係インスタンスを抽出するためにドメイン特化のBERTモデルの構築も行った。モデル構築にあたり、グラフィックカードであるNvidiaのV100を購入予定であったが、V100よりも価格が安いうえに性能が高いNvidiaのA6000が発売されていたことから、こちらを2個購入し、モデル構築や実験に利用した。作成した事前学習モデルは、Web上で公開しており、誰でも無料で利用可能となっている。全ての公開したモデルのダウンロード数を合わせると、現時点で6,700件以上あり、多くの方に利用して頂いている。こちらの研究に関しては、SIGFINなどの国内研究会で発表済みである。こちらの研究に関しては、SIGFINなどの国内研究会で発表済みである。
現在までの達成度 (区分)	現在までの達成度 (区分) 1: 当初の計画以上に進展している理由開発したモデルが期待以上の性能で因果関係インスタンスを抽出することができた。また、日本語、英語を問わずに高い性能であったことから、言語に依らない手法である。加えて、ドメイン特化の事前学習モデルの構築も行い、その性能評価も進んでおり、モデルの有用性を様々なタスクで示すことができている。さらに、作成した事前学習モデルは、Web上で公開しており、誰でも無料で利用可能となっている。全ての公開したモデルのダウンロード数を合わせると、現時点で6,700件以上あり、多くの方に利用して頂いている。
今後の研究の推進方策	今後は、開発したモデルのブラッシュアップを行い、論文投稿に向け実験を進める。また、抽出した因果関係インスタンスを用いて、因果チェーンを構築する手法の開発も進める。言語に依存しない手法を構築することで、日本語・英語の両方で因果チェーンを構築する。さらに、日本語と英語の因果関係インスタンスの類似度を算出する手法を開発し、日英にまたがる因果チェーンの構築を目指す。

研究成果
(4件)

すべて 2021 その他

すべて学会発表 (3件) 備考 (1件)

[学会発表] 系列ラベリングによる原因・結果表現抽出の試み2021
- 著者名/発表者名
  坂地泰紀, 和泉潔, 加藤惇雄, 長尾慎太郎
- 学会等名
  第18回テキストアナリティクス・シンポジウム
[学会発表] 鈴木雅弘, 坂地泰紀, 平野正徳, 和泉潔2021
- 著者名/発表者名
  金融ドメインにおける事前学習BERTモデルの性能検証
- 学会等名
  第18回テキストアナリティクス・シンポジウム
[学会発表] 金融文書を用いた事前学習言語モデルの構築と検証2021
- 著者名/発表者名
  鈴木雅弘, 坂地泰紀, 平野正徳, 和泉潔
- 学会等名
  人工知能学会第27回金融情報学研究会
[備考] Hiroki's page
- URL
  http://tetsuwaka.net/