• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2021 Fiscal Year Research-status Report

大規模学術文献データのネットワーク構造を考慮した事前学習言語モデルに関する研究

Research Project

Project/Area Number 20K12076
Research InstitutionThe University of Tokyo

Principal Investigator

森 純一郎  東京大学, 大学院情報理工学系研究科, 准教授 (30508924)

Project Period (FY) 2020-04-01 – 2023-03-31
Keywords学術文献データ / 事前学習言語モデル / 引用ネットワーク / 表現学習
Outline of Annual Research Achievements

学術文献データの増加とそれに伴うデータのオープン化の背景の元、膨大な学術文献データから新発見や課題解決に繋がる多様な学術知を抽出することの重要性が認識されてきている。本研究では、大規模な学術文献データから有用な知識の抽出と発見を支援することを目的に、学術文献データのネットワーク構造を考慮 した大規模ハイパーテキストデータからの事前学習言語モデルの構築に関する基本的な方法論の研究を行う。従来の事前学習言語モデルに対して、本研究では学術文献のようにテキスト同士が関係で結ばれ全体としてネットワーク構造を持ったテキストコーパスからの事前学習言語モデルを構築するための知見を明らかにする。そのため、事前学習言語モデルの構築に必要な予測問題や自己注意機構の設計を行う。その上で、学術文献データからの知識抽出・発見に関連するタスク に事前学習言語モデルを適用し評価を行い、実応用に関する知見を明らかにする。
2021年度は、大規模学術文献データの文献間の引用関係に基づくハイパーテキストデータから事前学習言語モデルを構築する技術として、引用ネットワーク構造を考慮した文献テキストコーパスからの事前学習言語モデル構築のための予測問題の設計と実装に取り組んだ。また、事前学習言語モデルを用いて大規模な学術文献データから有用な知識の抽出と発見を支援するための技術として、事前学習言語モデルにより獲得された分散表現を用いた引用ネットワークのリンク予測およびノード分類タスクによる評価に取り組んだ。これらの研究成果を自然言語処理分野のトップジャーナルの一つであるTACLを含め複数の論文誌および国際学会で発表した。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

2021年度は、大規模学術文献データの文献間の引用関係に基づくハイパーテキストデータから事前学習言語モデルを構築する技術として、引用ネットワーク構造を考慮した文献テキストコーパスからの事前学習言語モデル構築のための予測問題の設計と実装に取り組んだ。また、事前学習言語モデルを用いて大規模な学術文献データから有用な知識の抽出と発見を支援するための技術として、事前学習言語モデルにより獲得された分散表現を用いた引用ネットワークのリンク予測およびノード分類タスクによる評価に取り組んだ。これらの研究成果を自然言語処理分野のトップジャーナルの一つであるTACLを含め複数の論文誌および国際学会で発表した。

Strategy for Future Research Activity

今後は、大規模学術文献データの文献間の引用関係に基づくハイパーテキストデータから事前学習言語モデルを構築する技術として引き続き、事前学習言語モデルの自己注意機構の設計と実装に着手する。次に、事前学習言語モデルを用いて大規模な学術文献データから有用な知識の抽出と発見を支援するための技術として、1.事前学習言語モデルを用いた文献テキストからの固有表現抽出、関係抽出およびテキ スト分類タスクによる評価、2.事前学習言語モデルにより獲得された分散表現を用いた引用ネットワークのリンク予測およびノード分類タスクによる評価、に取り組む予定である。最後に、提案者らが研究開発を進めている大規模な学術文献データを分析するシステムである「学術産業技術俯瞰システム」を活用し研究成果を広く公開する予定である。

Causes of Carryover

2021年度はコロナの影響により予定していた旅費および人件費が未使用となった。当該用途かかる研究計画を後倒しし、2022年度は順次当該用途に執行してい く。

  • Research Products

    (5 results)

All 2022 2021

All Journal Article (1 results) (of which Int'l Joint Research: 1 results,  Peer Reviewed: 1 results,  Open Access: 1 results) Presentation (4 results) (of which Int'l Joint Research: 2 results)

  • [Journal Article] Unsupervised Abstractive Opinion Summarization by Generating Sentences with Tree-Structured Topic Guidance2021

    • Author(s)
      Masaru Isonuma, Junichiro Mori, Danushka Bollegala, Ichiro Sakata
    • Journal Title

      Transactions of the Association for Computational Linguistics

      Volume: 9 Pages: 945-961

    • DOI

      10.1162/tacl_a_00406

    • Peer Reviewed / Open Access / Int'l Joint Research
  • [Presentation] Homophilyに基づくサイレントマジョリティの意見推定2022

    • Author(s)
      向井穂乃花、磯沼大、森純一郎、坂田一郎
    • Organizer
      言語処理学会第28回年次大会
  • [Presentation] Which Is More Helpful in Finding Scientific Papers to Be Top-cited in the Future: Content or Citations? Case Analysis in the Field of Solar Cells 20092021

    • Author(s)
      Masanao Ochi, Masanori Shiro, Junichiro Mori, Ichiro Sakata
    • Organizer
      International Conference on Web Information Systems and Technologies
    • Int'l Joint Research
  • [Presentation] 科学研究のインパクト予測に向けた学術文献情報から抽出した分散表現による特定可能性分析2021

    • Author(s)
      大知 正直, 城 真範, 森 純一郎, 坂田 一郎
    • Organizer
      2021年度 人工知能学会全国大会(第35回)
  • [Presentation] Unsupervised Abstractive Opinion Summarization by Generating Sentences with Tree Structured Topic Guidance2021

    • Author(s)
      Masaru Isonuma, Junichiro Mori, Danushka Bollegala, Ichiro Sakata
    • Organizer
      The 2021 Conference on Empirical Methods in Natural Language Processing (EMNLP2021)
    • Int'l Joint Research

URL: 

Published: 2022-12-28  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi