大規模学術文献データのネットワーク構造を考慮した事前学習言語モデルに関する研究

研究課題

研究課題/領域番号	20K12076
研究種目	基盤研究(C)
配分区分	基金
応募区分	一般
審査区分	小区分62020:ウェブ情報学およびサービス情報学関連
研究機関	東京大学
研究代表者	森純一郎東京大学, 大学院情報理工学系研究科, 准教授 (30508924)
研究期間 (年度)	2020-04-01 – 2023-03-31
研究課題ステータス	完了 (2022年度)
配分額 *注記	4,290千円 (直接経費: 3,300千円、間接経費: 990千円) 2022年度: 1,560千円 (直接経費: 1,200千円、間接経費: 360千円) 2021年度: 1,040千円 (直接経費: 800千円、間接経費: 240千円) 2020年度: 1,690千円 (直接経費: 1,300千円、間接経費: 390千円)
キーワード	学術文献データ / 事前学習言語モデル / 引用ネットワーク / 表現学習 / 事前学習モデル
研究開始時の研究の概要	本研究では、大規模な学術文献データから有用な知識の抽出と発見を支援することを目的に、学術文献データのネットワーク構造を考慮した大規模ハイパーテキストデータからの事前学習言語モデルの構築に関する基本的な方法論の研究を行う。本研究では学術文献のようにテキスト同士が関係で結ばれ全体としてネットワーク構造を持ったテキストコーパスからの事前学習言語モデルを構築するための知見を明らかにする。その上で、学術文献データからの知識抽出・発見に関連するタスクに事前学習言語モデルを適用し評価を行い、実応用に関する知見を明らかにする。
研究成果の概要	膨大な学術文献データから新発見や課題解決に繋がる多様な学術知を抽出することの重要性が認識されてきている。本研究では、大規模な学術文献データから有用な知識の抽出と発見を支援することを目的に、学術文献データのネットワーク構造を考慮した大規模ハイパーテキストデータからの事前学習言語モデルの構築に関する基本的な方法論の研究を行った。研究成果として、大規模学術文献データの文献間の引用関係に基づくハイパーテキストデータから事前学習言語モデルを構築する技術ならびに事前学習言語モデルを用いて大規模な学術文献データから有用な知識の抽出と発見を支援するための技術の開発を行なった。
研究成果の学術的意義や社会的意義	まず、COVID-19に関する科学的エビデンスや重要な技術などの情報を抽出しその解析結果を広く一般に公開した。次に、引用ネットワーク構造を考慮した文献コーパスからの事前学習言語モデル構築のための予測問題の設計と実装に取り組んだ。また、事前学習言語モデルにより獲得された分散表現を用いた引用ネットワークのリンク予測およびノード分類タスクによる評価に取り組んだ。最後に、期間中に研究開発を行った手法を応用し、萌芽的な学術論文の発見、サーベイ論文の自動生成、研究トピックの抽出と時系列変化の可視化など、複数の新たなタスクに取り組んだ。これらの研究成果を複数の学会で発表した。

報告書

(4件)

研究成果
(19件)

すべて 2023 2022 2021 2020 その他

すべて雑誌論文 (5件) (うち国際共著 2件、査読あり 5件、オープンアクセス 3件) 学会発表 (13件) (うち国際学会 3件) 備考 (1件)

[雑誌論文] Classification of the Top-cited Literature by Fusing Linguistic and Citation Information with the Transformer Model2022
- 著者名/発表者名
  Masanao Ochi, Masanori Shiro, Junichiro Mori, Ichiro Sakata
- 雑誌名
  
  Proceedings of the 18th International Conference on Web Information Systems and Technologies
  
  巻: -
- 関連する報告書
  2022 実績報告書
- 査読あり
[雑誌論文] Predictive analysis of multiple future scientific impacts by embedding a heterogeneous network2022
- 著者名/発表者名
  Masanao Ochi, Masanori Shiro, Jun’ichiro Mori, Ichiro Sakata
- 雑誌名
  
  PLOS ONE
  
  巻: 17-9 号: 9 ページ: 0274253-0274253
- DOI
  10.1371/journal.pone.0274253
- 関連する報告書
  2022 実績報告書
- 査読あり / オープンアクセス
[雑誌論文] Unsupervised Abstractive Opinion Summarization by Generating Sentences with Tree-Structured Topic Guidance2021
- 著者名/発表者名
  Masaru Isonuma, Junichiro Mori, Danushka Bollegala, Ichiro Sakata
- 雑誌名
  
  Transactions of the Association for Computational Linguistics
  
  巻: 9 ページ: 945-961
- DOI
  10.1162/tacl_a_00406
- 関連する報告書
  2021 実施状況報告書
- 査読あり / オープンアクセス / 国際共著
[雑誌論文] Tree-Structured Neural Topic Model2020
- 著者名/発表者名
  Isonuma Masaru、Mori Junichiro、Bollegala Danushka、Sakata Ichiro
- 雑誌名
  
  Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics (ACL2020)
  
  巻: 1 ページ: 995-1005
- DOI
  10.18653/v1/2020.acl-main.73
- 関連する報告書
  2020 実施状況報告書
- 査読あり / 国際共著
[雑誌論文] Constructive Approach for Early Extraction of Viral Spreading Social Issues from Twitter2020
- 著者名/発表者名
  Chou Jen Shiau、Masanao Ochi、Takeshi Sakaki、Ken Nagahama、Kanji Sakai、Junichiro Mori、Ichiro Sakata
- 雑誌名
  
  Proceedings of ACM Web Science 2020 (WebSci2020)
  
  巻: 1 ページ: 96-105
- DOI
  10.1145/3394231.3397899
- 関連する報告書
  2020 実施状況報告書
- 査読あり / オープンアクセス
[学会発表] 時系列構造化ニューラルトピックモデル2023
- 著者名/発表者名
  宮本望, 磯沼大, 高瀬翔, 森純一郎, 坂田一郎
- 学会等名
  言語処理学会第29回年次大会
- 関連する報告書
  2022 実績報告書
[学会発表] サーベイ論文自動生成に向けた大規模ベンチマークデータセットの構築2023
- 著者名/発表者名
  笠西哲, 磯沼大, 森純一郎, 坂田一郎
- 学会等名
  言語処理学会第29回年次大会
- 関連する報告書
  2022 実績報告書
[学会発表] Transformerモデルを用いた学術文献の言語情報と引用情報の融合2022
- 著者名/発表者名
  大知正直、城真範、森純一郎、坂田一郎
- 学会等名
  2022年度人工知能学会全国大会
- 関連する報告書
  2022 実績報告書
[学会発表] Self-attention機構に基づくDynamic Structured Neural Topic Model2022
- 著者名/発表者名
  宮本望、磯沼大、森純一郎、坂田一郎
- 学会等名
  2022年度人工知能学会全国大会
- 関連する報告書
  2022 実績報告書
[学会発表] Transformer Encoder-Decoderモデルによるサーベイ論文の自動生成2022
- 著者名/発表者名
  笠西哲、磯沼大、森純一郎、坂田一郎
- 学会等名
  2022年度人工知能学会全国大会
- 関連する報告書
  2022 実績報告書
[学会発表] Homophilyに基づくサイレントマジョリティの意見推定2022
- 著者名/発表者名
  向井穂乃花、磯沼大、森純一郎、坂田一郎
- 学会等名
  言語処理学会第28回年次大会
- 関連する報告書
  2021 実施状況報告書
[学会発表] Which Is More Helpful in Finding Scientific Papers to Be Top-cited in the Future: Content or Citations? Case Analysis in the Field of Solar Cells 20092021
- 著者名/発表者名
  Masanao Ochi, Masanori Shiro, Junichiro Mori, Ichiro Sakata
- 学会等名
  International Conference on Web Information Systems and Technologies
- 関連する報告書
  2021 実施状況報告書
- 国際学会
[学会発表] 科学研究のインパクト予測に向けた学術文献情報から抽出した分散表現による特定可能性分析2021
- 著者名/発表者名
  大知正直, 城真範, 森純一郎, 坂田一郎
- 学会等名
  2021年度人工知能学会全国大会（第35回）
- 関連する報告書
  2021 実施状況報告書
[学会発表] Unsupervised Abstractive Opinion Summarization by Generating Sentences with Tree Structured Topic Guidance2021
- 著者名/発表者名
  Masaru Isonuma, Junichiro Mori, Danushka Bollegala, Ichiro Sakata
- 学会等名
  The 2021 Conference on Empirical Methods in Natural Language Processing (EMNLP2021)
- 関連する報告書
  2021 実施状況報告書
- 国際学会
[学会発表] Citation Network Analysis of the COVID-19 Open Research Dataset2020
- 著者名/発表者名
  Junichiro Mori
- 学会等名
  Second International Workshop on SCIentific DOCument Analysis (SCIDOCA 2020)
- 関連する報告書
  2020 実施状況報告書
- 国際学会
[学会発表] 潜在的なトピック構造を捉えた生成型教師なし意見要約2020
- 著者名/発表者名
  磯沼大
- 学会等名
  情報処理学会第246回自然言語処理研究会
- 関連する報告書
  2020 実施状況報告書
[学会発表] トピック文生成による教師なし意見要約2020
- 著者名/発表者名
  磯沼大
- 学会等名
  言語処理学会第27回年次大会
- 関連する報告書
  2020 実施状況報告書
[学会発表] 構築主義的アプローチに基づく情報拡散型社会問題の早期抽出2020
- 著者名/発表者名
  蕭喬仁
- 学会等名
  2020年度人工知能学会全国大会
- 関連する報告書
  2020 実施状況報告書
[備考] COVID-19関連論文の引用解析
- URL
  https://academic-landscape.com/analysis/36093
- 関連する報告書
  2020 実施状況報告書

大規模学術文献データのネットワーク構造を考慮した事前学習言語モデルに関する研究

研究代表者

森 純一郎 東京大学, 大学院情報理工学系研究科, 准教授 (30508924)

4,290千円 (直接経費: 3,300千円、間接経費: 990千円)

報告書

研究成果

[雑誌論文] Classification of the Top-cited Literature by Fusing Linguistic and Citation Information with the Transformer Model2022

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] Predictive analysis of multiple future scientific impacts by embedding a heterogeneous network2022

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Unsupervised Abstractive Opinion Summarization by Generating Sentences with Tree-Structured Topic Guidance2021

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Tree-Structured Neural Topic Model2020

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Constructive Approach for Early Extraction of Viral Spreading Social Issues from Twitter2020

著者名/発表者名

雑誌名

DOI

関連する報告書

[学会発表] 時系列構造化ニューラルトピックモデル2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] サーベイ論文自動生成に向けた大規模ベンチマークデータセットの構築2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] Transformerモデルを用いた学術文献の言語情報と引用情報の融合2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] Self-attention機構に基づくDynamic Structured Neural Topic Model2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] Transformer Encoder-Decoderモデルによるサーベイ論文の自動生成2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] Homophilyに基づくサイレントマジョリティの意見推定2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] Which Is More Helpful in Finding Scientific Papers to Be Top-cited in the Future: Content or Citations? Case Analysis in the Field of Solar Cells 20092021

著者名/発表者名

学会等名

関連する報告書

[学会発表] 科学研究のインパクト予測に向けた学術文献情報から抽出した分散表現による特定可能性分析2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] Unsupervised Abstractive Opinion Summarization by Generating Sentences with Tree Structured Topic Guidance2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] Citation Network Analysis of the COVID-19 Open Research Dataset2020

著者名/発表者名

学会等名

関連する報告書

[学会発表] 潜在的なトピック構造を捉えた生成型教師なし意見要約2020

著者名/発表者名

学会等名

関連する報告書

[学会発表] トピック文生成による教師なし意見要約2020

著者名/発表者名

学会等名

関連する報告書

[学会発表] 構築主義的アプローチに基づく情報拡散型社会問題の早期抽出2020

著者名/発表者名

森純一郎東京大学, 大学院情報理工学系研究科, 准教授 (30508924)