• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2021 年度 実施状況報告書

大規模学術文献データのネットワーク構造を考慮した事前学習言語モデルに関する研究

研究課題

研究課題/領域番号 20K12076
研究機関東京大学

研究代表者

森 純一郎  東京大学, 大学院情報理工学系研究科, 准教授 (30508924)

研究期間 (年度) 2020-04-01 – 2023-03-31
キーワード学術文献データ / 事前学習言語モデル / 引用ネットワーク / 表現学習
研究実績の概要

学術文献データの増加とそれに伴うデータのオープン化の背景の元、膨大な学術文献データから新発見や課題解決に繋がる多様な学術知を抽出することの重要性が認識されてきている。本研究では、大規模な学術文献データから有用な知識の抽出と発見を支援することを目的に、学術文献データのネットワーク構造を考慮 した大規模ハイパーテキストデータからの事前学習言語モデルの構築に関する基本的な方法論の研究を行う。従来の事前学習言語モデルに対して、本研究では学術文献のようにテキスト同士が関係で結ばれ全体としてネットワーク構造を持ったテキストコーパスからの事前学習言語モデルを構築するための知見を明らかにする。そのため、事前学習言語モデルの構築に必要な予測問題や自己注意機構の設計を行う。その上で、学術文献データからの知識抽出・発見に関連するタスク に事前学習言語モデルを適用し評価を行い、実応用に関する知見を明らかにする。
2021年度は、大規模学術文献データの文献間の引用関係に基づくハイパーテキストデータから事前学習言語モデルを構築する技術として、引用ネットワーク構造を考慮した文献テキストコーパスからの事前学習言語モデル構築のための予測問題の設計と実装に取り組んだ。また、事前学習言語モデルを用いて大規模な学術文献データから有用な知識の抽出と発見を支援するための技術として、事前学習言語モデルにより獲得された分散表現を用いた引用ネットワークのリンク予測およびノード分類タスクによる評価に取り組んだ。これらの研究成果を自然言語処理分野のトップジャーナルの一つであるTACLを含め複数の論文誌および国際学会で発表した。

現在までの達成度 (区分)
現在までの達成度 (区分)

2: おおむね順調に進展している

理由

2021年度は、大規模学術文献データの文献間の引用関係に基づくハイパーテキストデータから事前学習言語モデルを構築する技術として、引用ネットワーク構造を考慮した文献テキストコーパスからの事前学習言語モデル構築のための予測問題の設計と実装に取り組んだ。また、事前学習言語モデルを用いて大規模な学術文献データから有用な知識の抽出と発見を支援するための技術として、事前学習言語モデルにより獲得された分散表現を用いた引用ネットワークのリンク予測およびノード分類タスクによる評価に取り組んだ。これらの研究成果を自然言語処理分野のトップジャーナルの一つであるTACLを含め複数の論文誌および国際学会で発表した。

今後の研究の推進方策

今後は、大規模学術文献データの文献間の引用関係に基づくハイパーテキストデータから事前学習言語モデルを構築する技術として引き続き、事前学習言語モデルの自己注意機構の設計と実装に着手する。次に、事前学習言語モデルを用いて大規模な学術文献データから有用な知識の抽出と発見を支援するための技術として、1.事前学習言語モデルを用いた文献テキストからの固有表現抽出、関係抽出およびテキ スト分類タスクによる評価、2.事前学習言語モデルにより獲得された分散表現を用いた引用ネットワークのリンク予測およびノード分類タスクによる評価、に取り組む予定である。最後に、提案者らが研究開発を進めている大規模な学術文献データを分析するシステムである「学術産業技術俯瞰システム」を活用し研究成果を広く公開する予定である。

次年度使用額が生じた理由

2021年度はコロナの影響により予定していた旅費および人件費が未使用となった。当該用途かかる研究計画を後倒しし、2022年度は順次当該用途に執行してい く。

  • 研究成果

    (5件)

すべて 2022 2021

すべて 雑誌論文 (1件) (うち国際共著 1件、 査読あり 1件、 オープンアクセス 1件) 学会発表 (4件) (うち国際学会 2件)

  • [雑誌論文] Unsupervised Abstractive Opinion Summarization by Generating Sentences with Tree-Structured Topic Guidance2021

    • 著者名/発表者名
      Masaru Isonuma, Junichiro Mori, Danushka Bollegala, Ichiro Sakata
    • 雑誌名

      Transactions of the Association for Computational Linguistics

      巻: 9 ページ: 945-961

    • DOI

      10.1162/tacl_a_00406

    • 査読あり / オープンアクセス / 国際共著
  • [学会発表] Homophilyに基づくサイレントマジョリティの意見推定2022

    • 著者名/発表者名
      向井穂乃花、磯沼大、森純一郎、坂田一郎
    • 学会等名
      言語処理学会第28回年次大会
  • [学会発表] Which Is More Helpful in Finding Scientific Papers to Be Top-cited in the Future: Content or Citations? Case Analysis in the Field of Solar Cells 20092021

    • 著者名/発表者名
      Masanao Ochi, Masanori Shiro, Junichiro Mori, Ichiro Sakata
    • 学会等名
      International Conference on Web Information Systems and Technologies
    • 国際学会
  • [学会発表] 科学研究のインパクト予測に向けた学術文献情報から抽出した分散表現による特定可能性分析2021

    • 著者名/発表者名
      大知 正直, 城 真範, 森 純一郎, 坂田 一郎
    • 学会等名
      2021年度 人工知能学会全国大会(第35回)
  • [学会発表] Unsupervised Abstractive Opinion Summarization by Generating Sentences with Tree Structured Topic Guidance2021

    • 著者名/発表者名
      Masaru Isonuma, Junichiro Mori, Danushka Bollegala, Ichiro Sakata
    • 学会等名
      The 2021 Conference on Empirical Methods in Natural Language Processing (EMNLP2021)
    • 国際学会

URL: 

公開日: 2022-12-28  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi