研究課題/領域番号 |
20K12076
|
研究機関 | 東京大学 |
研究代表者 |
森 純一郎 東京大学, 大学院情報理工学系研究科, 准教授 (30508924)
|
研究期間 (年度) |
2020-04-01 – 2023-03-31
|
キーワード | 学術文献データ / 事前学習言語モデル / 引用ネットワーク / 表現学習 |
研究実績の概要 |
学術文献データの増加とそれに伴うデータのオープン化の背景の元、膨大な学術文献データから新発見や課題解決に繋がる多様な学術知を抽出することの重要性が認識されてきている。本研究では、大規模な学術文献データから有用な知識の抽出と発見を支援することを目的に、学術文献データのネットワーク構造を考慮した大規模ハイパーテキストデータからの事前学習言語モデルの構築に関する基本的な方法論の研究を行う。従来の事前学習言語モデルに対して、本研究では学術文献のようにテキスト同士が関係で結ばれ全体としてネットワーク構造を持ったテキストコーパスからの事前学習言語モデルを構築するための知見を明らかにする。そのため、事前学習言語モデルの構築に必要な予測問題や自己注意機構の設計を行う。その上で、学術文献データからの知識抽出・発見に関連するタスクに事前学習言語モデルを適用し評価を行い、実応用に関する知見を明らかにする。 2020年度は、大規模学術文献データの文献間の引用関係に基づくハイパーテキストデータから事前学習言語モデルを構築する技術として、1.大規模な学術文献データから引用ネットワークを構築する手法の設計と実装および2.引用ネットワーク構造を考慮した文献テキストコーパスからの事前学習言語モデル構築のための予測問題の設計と実装に取り組んだ。COVID-19のパンデミックの発生以降において、その学術研究は急速に増加しており、関連する学術文献データセットに対して引用ネットワーク解析を行い、COVID-19に関する科学的エビデンスや重要な技術などの情報を抽出した。その解析結果を広く一般に公開するとともに、これらの研究成果を複数の国際学会で発表しまた論文誌へ投稿した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
2020年度は、大規模学術文献データの文献間の引用関係に基づくハイパーテキストデータから事前学習言語モデルを構築する技術として、1.大規模な学術文献データから引用ネットワークを構築する手法の設計と実装および2.引用ネットワーク構造を考慮した文献テキストコーパスからの事前学習言語モデル構築のための予測問題の設計と実装に取り組んだ。COVID-19のパンデミックの発生以降において、その学術研究は急速に増加しており、関連する学術文献データセットに対して引用ネットワーク解析を行い、COVID-19に関する科学的エビデンスや重要な技術などの情報を抽出した。その解析結果を広く一般に公開するとともに、これらの研究成果を複数の国際学会で発表しまた論文誌へ投稿するなど、研究は概ね順調に進んでいる。
|
今後の研究の推進方策 |
今後は、大規模学術文献データの文献間の引用関係に基づくハイパーテキストデータから事前学習言語モデルを構築する技術として引き続き、1.大規模な学術文献データから引用ネットワークを構築する手法の設計と実装、2.引用ネットワーク構造を考慮した文献テキストコーパスからの事前学習言語モデル構築のための予測問題の設計と実装、に取り組む。その上で、3.事前学習言語モデルの自己注意機構の設計と実装に着手する。次に、事前学習言語モデルを用いて大規模な学術文献データから有用な知識の抽出と発見を支援するための技術として、1.事前学習言語モデルを用いた文献テキストからの固有表現抽出、関係抽出およびテキスト分類タスクによる評価、2.事前学習言語モデルにより獲得された分散表現を用いた引用ネットワークのリンク予測およびノード分類タスクによる評価、に取り組む予定である。
|
次年度使用額が生じた理由 |
2020年度はコロナの影響により予定していた旅費および人件費が未使用となった。当該用途かかる研究計画を後倒しし、2021年度は順次当該用途に執行していく。
|