経済シナリオ分析のための因果関係インスタンス認識技術の確立

Research Project

Project/Area Number	21K12010
Research Category	Grant-in-Aid for Scientific Research (C)
Allocation Type	Multi-year Fund
Section	一般
Review Section	Basic Section 61030:Intelligent informatics-related
Research Institution	The University of Tokyo
Principal Investigator	坂地泰紀東京大学, 大学院工学系研究科(工学部), 特任講師 (70722809)
Project Period (FY)	2021-04-01 – 2024-03-31
Project Status	Granted (Fiscal Year 2022)
Budget Amount *help	¥3,770,000 (Direct Cost: ¥2,900,000、Indirect Cost: ¥870,000) Fiscal Year 2023: ¥650,000 (Direct Cost: ¥500,000、Indirect Cost: ¥150,000) Fiscal Year 2022: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000) Fiscal Year 2021: ¥1,820,000 (Direct Cost: ¥1,400,000、Indirect Cost: ¥420,000)
Keywords	因果関係インスタンス / 事前学習モデル / グラフニューラルネットワーク / テキストマイニング / 因果関係 / 因果関係インスタンス認識 / 社会イベント分析
Outline of Research at the Start	本研究の目的は、日本語・英語問わず、様々な金融テキストデータから、因果関係インスタンスを認識することで、社会イベント発生から個々の影響へのパスを明らかにすることである。これを達成するために、個々の因果関係インスタンスを認識する技術、抽出した因果関係インスタンスを用いて正確に因果チェーンを構築する技術の開発を行う。加えて、構築した因果チェーンを用いて国、地域、企業と異なる立場に基づくシナリオ分析可能なフレームワークを構築する。
Outline of Annual Research Achievements	タグ付けを行った決算短信データ、タグ付与済みの英語ロイターニュース記事、FinCausalのデータセットを用いて因果関係インスタンス抽出実験を行い、日英の文書から因果関係インスタンスを抽出できる手法の開発に取り組んだ。結果的に、BERTとグラフニューラルネットワークを組み合わせることで既存の手法よりも高い精度で因果関係インスタンスを抽出できる手法の開発に成功した。加えて、中国語からの因果関係も検討するために、タグ付けを開始した。また、因果関係インスタンスを抽出する前に行うフィルタリングに関する研究についても、グラフニューラルネットワークを用いる手法を提案し、「BERTとGATを用いた金融テキストにおける因果関係を含む文の判定」というタイトルで言語処理学会年次大会にて発表を行った。因果関係インスタンスを抽出するためにドメイン特化のBERTモデルの構築も行った。作成した事前学習モデルは、Web上で公開しており、誰でも無料で利用可能となっている。こちらに研究に関しては、「Constructing and analyzing domain-specific language model for financial text mining」というタイトルでInformation Processing & ManagementというElsevierの論文誌に採録された。加えて、ドメイン特化の事前学習フレームワークについては、「Gradual Further Pre-training Architecture for Economics/Finance Domain Adaptation of Language Model」というタイトルで、IEEE BigData 2022に採録された。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 開発したモデルが期待以上の性能で因果関係インスタンスを抽出することができた。また、日本語、英語を問わずに高い性能であったことから、言語に依らない手法である。加えて、ドメイン特化の事前学習モデルの構築も行い、その性能評価も進んでおり、モデルの有用性を様々なタスクで示すことができている。さらに、作成した事前学習モデルは、Web上で公開しており、誰でも無料で利用可能となっている。
Strategy for Future Research Activity	抽出した因果関係インスタンスを用いて、因果チェーンを構築する手法の開発も進める。言語に依存しない手法を構築することで、日本語・英語の両方で因果チェーンを構築する。さらに、日本語と英語の因果関係インスタンスの類似度を算出する手法を開発し、日英にまたがる因果チェーンの構築を目指す。

Report

(2 results)

2022 Research-status Report
2021 Research-status Report

Research Products

(11 results)

All 2023 2022 2021 Other

All Journal Article (1 results) (of which Peer Reviewed: 1 results) Presentation (7 results) (of which Int'l Joint Research: 1 results) Remarks (3 results)

[Journal Article] Constructing and analyzing domain-specific language model for financial text mining2023
- Author(s)
  Masahiro Suzuki, Hiroki Sakaji, Masanori Hirano, Kiyoshi Izumi
- Journal Title
  
  Information Processing & Management
  
  Volume: 60 Issue: 2 Pages: 103194-103194
- DOI
  10.1016/j.ipm.2022.103194
- Related Report
  2022 Research-status Report
- Peer Reviewed
[Presentation] 銘柄特徴と投資家特性を考慮した株式銘柄推薦の個別化2023
- Author(s)
  高柳剛弘, 坂地泰紀, 和泉潔
- Organizer
  言語処理学会第29回年次大会(NLP2023)
- Related Report
  2022 Research-status Report
[Presentation] BERTとGATを用いた金融テキストにおける因果関係を含む文の判定2023
- Author(s)
  小林涼太郎, 坂地泰紀, 和泉潔
- Organizer
  言語処理学会第29回年次大会(NLP2023)
- Related Report
  2022 Research-status Report
[Presentation] Gradual Further Pre-training Architecture for Economics/Finance Domain Adaptation of Language Model2022
- Author(s)
  Hiroki Sakaji, Masahiro Suzuki, Kiyoshi Izumi, Hiroyuki Mitsugi
- Organizer
  2022 IEEE International Conference on Big Data (IEEE BigData 2022)
- Related Report
  2022 Research-status Report
- Int'l Joint Research
[Presentation] 個別銘柄情報と銘柄間情報を利用したテーマ株抽出手法の提案2022
- Author(s)
  高柳剛弘, 坂地泰紀, 和泉潔
- Organizer
  2022年度人工知能学会全国大会
- Related Report
  2022 Research-status Report
[Presentation] 系列ラベリングによる原因・結果表現抽出の試み2021
- Author(s)
  坂地泰紀, 和泉潔, 加藤惇雄, 長尾慎太郎
- Organizer
  第18回テキストアナリティクス・シンポジウム
- Related Report
  2021 Research-status Report
[Presentation] 鈴木雅弘, 坂地泰紀, 平野正徳, 和泉潔2021
- Author(s)
  金融ドメインにおける事前学習BERTモデルの性能検証
- Organizer
  第18回テキストアナリティクス・シンポジウム
- Related Report
  2021 Research-status Report
[Presentation] 金融文書を用いた事前学習言語モデルの構築と検証2021
- Author(s)
  鈴木雅弘, 坂地泰紀, 平野正徳, 和泉潔
- Organizer
  人工知能学会第27回金融情報学研究会
- Related Report
  2021 Research-status Report
[Remarks] Hiroki's page
- URL
  https://testuwaka.net/
- Related Report
  2022 Research-status Report
[Remarks] 事前学習言語モデル
- URL
  https://sites.google.com/socsim.org/izumi-lab/tools/language-model
- Related Report
  2022 Research-status Report
[Remarks] Hiroki's page
- URL
  http://tetsuwaka.net/
- Related Report
  2021 Research-status Report

経済シナリオ分析のための因果関係インスタンス認識技術の確立

Principal Investigator

坂地 泰紀 東京大学, 大学院工学系研究科(工学部), 特任講師 (70722809)

¥3,770,000 (Direct Cost: ¥2,900,000、Indirect Cost: ¥870,000)

Current Status of Research Progress

Reason

Report

Research Products

[Journal Article] Constructing and analyzing domain-specific language model for financial text mining2023

Author(s)

Journal Title

DOI

Related Report

[Presentation] 銘柄特徴と投資家特性を考慮した株式銘柄推薦の個別化2023

Author(s)

Organizer

Related Report

[Presentation] BERTとGATを用いた金融テキストにおける因果関係を含む文の判定2023

Author(s)

Organizer

Related Report

[Presentation] Gradual Further Pre-training Architecture for Economics/Finance Domain Adaptation of Language Model2022

Author(s)

Organizer

Related Report

[Presentation] 個別銘柄情報と銘柄間情報を利用したテーマ株抽出手法の提案2022

Author(s)

Organizer

Related Report

[Presentation] 系列ラベリングによる原因・結果表現抽出の試み2021

Author(s)

Organizer

Related Report

[Presentation] 鈴木雅弘, 坂地泰紀, 平野正徳, 和泉潔2021

Author(s)

Organizer

Related Report

[Presentation] 金融文書を用いた事前学習言語モデルの構築と検証2021

Author(s)

Organizer

Related Report

[Remarks] Hiroki's page

URL

Related Report

[Remarks] 事前学習言語モデル

URL

Related Report

[Remarks] Hiroki's page

URL

Related Report

坂地泰紀東京大学, 大学院工学系研究科(工学部), 特任講師 (70722809)