研究課題/領域番号 |
21K12010
|
研究機関 | 東京大学 |
研究代表者 |
坂地 泰紀 東京大学, 大学院工学系研究科(工学部), 特任講師 (70722809)
|
研究期間 (年度) |
2021-04-01 – 2024-03-31
|
キーワード | 因果関係インスタンス / 事前学習モデル / グラフニューラルネットワーク |
研究実績の概要 |
本年度は、まず、因果関係インスタンスを取得するために、決算短信に対してタグ付与を行った。その後、タグ付けを行った決算短信データ、タグ付与済みの英語ロイターニュース記事、FinCausalのデータセットを用いて実験を行い、日英の文書から因果関係インスタンスを抽出できる手法の開発に取り組んだ。結果的に、BERTとグラフニューラルネットワークを組み合わせることで既存の手法よりも高い精度で因果関係インスタンスを抽出できる手法の開発に成功した。具体的には、全てのデータセットにおいて、F値が0.75以上で因果関係インスタンスを抽出することができた。この結果を論文としてまとめて国際会議に投稿したが、残念ながら不採録となった。そのため、2022年度は論文のブラッシュアップを行い、再度、投稿を行う。 因果関係インスタンスを抽出するためにドメイン特化のBERTモデルの構築も行った。モデル 構築にあたり、グラフィックカードであるNvidiaのV100を購入予定であったが、V100よりも価格が安いうえに性能が高いNvidiaのA6000が発売されていたことから、こちらを2個購入し、モデル構築や実験に利用した。 作成した事前学習モデルは、Web上で公開しており、誰でも無料で利用可能となっている。全ての公開したモデルのダウンロード数を合わせると、現時点で6,700件以上あり、多くの方に利用して頂いている。こちらの研究に関しては、SIGFINなどの国内研究会で発表済みである。こちらの研究に関しては、SIGFINなどの国内研究会で発表済みである。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
開発したモデルが期待以上の性能で因果関係インスタンスを抽出することができた。また、日本語、英語を問わずに高い性能であったことから、言語に依らない手法である。 加えて、ドメイン特化の事前学習モデルの構築も行い、その性能評価も進んでおり、モデルの有用性を様々なタスクで示すことができている。 さらに、作成した事前学習モデルは、Web上で公開しており、誰でも無料で利用可能となっている。全ての公開したモデルのダウンロード数を合わせると、現時点で6,700件以上あり、多くの方に利用して頂いている。
|
今後の研究の推進方策 |
今後は、開発したモデルのブラッシュアップを行い、論文投稿に向け実験を進める。また、抽出した因果関係インスタンスを用いて、因果チェーンを構築する手法の開発も進める。言語に依存しない手法を構築することで、日本語・英語の両方で因果チェーンを構築する。さらに、日本語と英語の因果関係インスタンスの類似度を算出する手法を開発し、日英にまたがる因果チェーンの構築を目指す。
|