• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2020 年度 実施状況報告書

大規模学術文献データのネットワーク構造を考慮した事前学習言語モデルに関する研究

研究課題

研究課題/領域番号 20K12076
研究機関東京大学

研究代表者

森 純一郎  東京大学, 大学院情報理工学系研究科, 准教授 (30508924)

研究期間 (年度) 2020-04-01 – 2023-03-31
キーワード学術文献データ / 事前学習言語モデル / 引用ネットワーク / 表現学習
研究実績の概要

学術文献データの増加とそれに伴うデータのオープン化の背景の元、膨大な学術文献データから新発見や課題解決に繋がる多様な学術知を抽出することの重要性が認識されてきている。本研究では、大規模な学術文献データから有用な知識の抽出と発見を支援することを目的に、学術文献データのネットワーク構造を考慮した大規模ハイパーテキストデータからの事前学習言語モデルの構築に関する基本的な方法論の研究を行う。従来の事前学習言語モデルに対して、本研究では学術文献のようにテキスト同士が関係で結ばれ全体としてネットワーク構造を持ったテキストコーパスからの事前学習言語モデルを構築するための知見を明らかにする。そのため、事前学習言語モデルの構築に必要な予測問題や自己注意機構の設計を行う。その上で、学術文献データからの知識抽出・発見に関連するタスクに事前学習言語モデルを適用し評価を行い、実応用に関する知見を明らかにする。
2020年度は、大規模学術文献データの文献間の引用関係に基づくハイパーテキストデータから事前学習言語モデルを構築する技術として、1.大規模な学術文献データから引用ネットワークを構築する手法の設計と実装および2.引用ネットワーク構造を考慮した文献テキストコーパスからの事前学習言語モデル構築のための予測問題の設計と実装に取り組んだ。COVID-19のパンデミックの発生以降において、その学術研究は急速に増加しており、関連する学術文献データセットに対して引用ネットワーク解析を行い、COVID-19に関する科学的エビデンスや重要な技術などの情報を抽出した。その解析結果を広く一般に公開するとともに、これらの研究成果を複数の国際学会で発表しまた論文誌へ投稿した。

現在までの達成度 (区分)
現在までの達成度 (区分)

2: おおむね順調に進展している

理由

2020年度は、大規模学術文献データの文献間の引用関係に基づくハイパーテキストデータから事前学習言語モデルを構築する技術として、1.大規模な学術文献データから引用ネットワークを構築する手法の設計と実装および2.引用ネットワーク構造を考慮した文献テキストコーパスからの事前学習言語モデル構築のための予測問題の設計と実装に取り組んだ。COVID-19のパンデミックの発生以降において、その学術研究は急速に増加しており、関連する学術文献データセットに対して引用ネットワーク解析を行い、COVID-19に関する科学的エビデンスや重要な技術などの情報を抽出した。その解析結果を広く一般に公開するとともに、これらの研究成果を複数の国際学会で発表しまた論文誌へ投稿するなど、研究は概ね順調に進んでいる。

今後の研究の推進方策

今後は、大規模学術文献データの文献間の引用関係に基づくハイパーテキストデータから事前学習言語モデルを構築する技術として引き続き、1.大規模な学術文献データから引用ネットワークを構築する手法の設計と実装、2.引用ネットワーク構造を考慮した文献テキストコーパスからの事前学習言語モデル構築のための予測問題の設計と実装、に取り組む。その上で、3.事前学習言語モデルの自己注意機構の設計と実装に着手する。次に、事前学習言語モデルを用いて大規模な学術文献データから有用な知識の抽出と発見を支援するための技術として、1.事前学習言語モデルを用いた文献テキストからの固有表現抽出、関係抽出およびテキスト分類タスクによる評価、2.事前学習言語モデルにより獲得された分散表現を用いた引用ネットワークのリンク予測およびノード分類タスクによる評価、に取り組む予定である。

次年度使用額が生じた理由

2020年度はコロナの影響により予定していた旅費および人件費が未使用となった。当該用途かかる研究計画を後倒しし、2021年度は順次当該用途に執行していく。

  • 研究成果

    (7件)

すべて 2020 その他

すべて 雑誌論文 (2件) (うち国際共著 1件、 査読あり 2件) 学会発表 (4件) (うち国際学会 1件) 備考 (1件)

  • [雑誌論文] Tree-Structured Neural Topic Model2020

    • 著者名/発表者名
      Isonuma Masaru、Mori Junichiro、Bollegala Danushka、Sakata Ichiro
    • 雑誌名

      Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics (ACL2020)

      巻: 1 ページ: 995-1005

    • DOI

      10.18653/v1/2020.acl-main.73

    • 査読あり / 国際共著
  • [雑誌論文] Constructive Approach for Early Extraction of Viral Spreading Social Issues from Twitter2020

    • 著者名/発表者名
      Chou Jen Shiau、Masanao Ochi、Takeshi Sakaki、Ken Nagahama、Kanji Sakai、Junichiro Mori、Ichiro Sakata
    • 雑誌名

      Proceedings of ACM Web Science 2020 (WebSci2020)

      巻: 1 ページ: 96-105

    • DOI

      10.1145/3394231.3397899

    • 査読あり
  • [学会発表] Citation Network Analysis of the COVID-19 Open Research Dataset2020

    • 著者名/発表者名
      Junichiro Mori
    • 学会等名
      Second International Workshop on SCIentific DOCument Analysis (SCIDOCA 2020)
    • 国際学会
  • [学会発表] 潜在的なトピック構造を捉えた生成型教師なし意見要約2020

    • 著者名/発表者名
      磯沼大
    • 学会等名
      情報処理学会 第246回自然言語処理研究会
  • [学会発表] トピック文生成による教師なし意見要約2020

    • 著者名/発表者名
      磯沼大
    • 学会等名
      言語処理学会第27回年次大会
  • [学会発表] 構築主義的アプローチに基づく情報拡散型社会問題の早期抽出2020

    • 著者名/発表者名
      蕭喬仁
    • 学会等名
      2020年度人工知能学会全国大会
  • [備考] COVID-19関連論文の引用解析

    • URL

      https://academic-landscape.com/analysis/36093

URL: 

公開日: 2021-12-27  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi