2021 Fiscal Year Research-status Report
大規模学術文献データのネットワーク構造を考慮した事前学習言語モデルに関する研究
Project/Area Number |
20K12076
|
Research Institution | The University of Tokyo |
Principal Investigator |
森 純一郎 東京大学, 大学院情報理工学系研究科, 准教授 (30508924)
|
Project Period (FY) |
2020-04-01 – 2023-03-31
|
Keywords | 学術文献データ / 事前学習言語モデル / 引用ネットワーク / 表現学習 |
Outline of Annual Research Achievements |
学術文献データの増加とそれに伴うデータのオープン化の背景の元、膨大な学術文献データから新発見や課題解決に繋がる多様な学術知を抽出することの重要性が認識されてきている。本研究では、大規模な学術文献データから有用な知識の抽出と発見を支援することを目的に、学術文献データのネットワーク構造を考慮 した大規模ハイパーテキストデータからの事前学習言語モデルの構築に関する基本的な方法論の研究を行う。従来の事前学習言語モデルに対して、本研究では学術文献のようにテキスト同士が関係で結ばれ全体としてネットワーク構造を持ったテキストコーパスからの事前学習言語モデルを構築するための知見を明らかにする。そのため、事前学習言語モデルの構築に必要な予測問題や自己注意機構の設計を行う。その上で、学術文献データからの知識抽出・発見に関連するタスク に事前学習言語モデルを適用し評価を行い、実応用に関する知見を明らかにする。 2021年度は、大規模学術文献データの文献間の引用関係に基づくハイパーテキストデータから事前学習言語モデルを構築する技術として、引用ネットワーク構造を考慮した文献テキストコーパスからの事前学習言語モデル構築のための予測問題の設計と実装に取り組んだ。また、事前学習言語モデルを用いて大規模な学術文献データから有用な知識の抽出と発見を支援するための技術として、事前学習言語モデルにより獲得された分散表現を用いた引用ネットワークのリンク予測およびノード分類タスクによる評価に取り組んだ。これらの研究成果を自然言語処理分野のトップジャーナルの一つであるTACLを含め複数の論文誌および国際学会で発表した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
2021年度は、大規模学術文献データの文献間の引用関係に基づくハイパーテキストデータから事前学習言語モデルを構築する技術として、引用ネットワーク構造を考慮した文献テキストコーパスからの事前学習言語モデル構築のための予測問題の設計と実装に取り組んだ。また、事前学習言語モデルを用いて大規模な学術文献データから有用な知識の抽出と発見を支援するための技術として、事前学習言語モデルにより獲得された分散表現を用いた引用ネットワークのリンク予測およびノード分類タスクによる評価に取り組んだ。これらの研究成果を自然言語処理分野のトップジャーナルの一つであるTACLを含め複数の論文誌および国際学会で発表した。
|
Strategy for Future Research Activity |
今後は、大規模学術文献データの文献間の引用関係に基づくハイパーテキストデータから事前学習言語モデルを構築する技術として引き続き、事前学習言語モデルの自己注意機構の設計と実装に着手する。次に、事前学習言語モデルを用いて大規模な学術文献データから有用な知識の抽出と発見を支援するための技術として、1.事前学習言語モデルを用いた文献テキストからの固有表現抽出、関係抽出およびテキ スト分類タスクによる評価、2.事前学習言語モデルにより獲得された分散表現を用いた引用ネットワークのリンク予測およびノード分類タスクによる評価、に取り組む予定である。最後に、提案者らが研究開発を進めている大規模な学術文献データを分析するシステムである「学術産業技術俯瞰システム」を活用し研究成果を広く公開する予定である。
|
Causes of Carryover |
2021年度はコロナの影響により予定していた旅費および人件費が未使用となった。当該用途かかる研究計画を後倒しし、2022年度は順次当該用途に執行してい く。
|