研究課題/領域番号 |
20K12076
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分62020:ウェブ情報学およびサービス情報学関連
|
研究機関 | 東京大学 |
研究代表者 |
森 純一郎 東京大学, 大学院情報理工学系研究科, 准教授 (30508924)
|
研究期間 (年度) |
2020-04-01 – 2023-03-31
|
研究課題ステータス |
完了 (2022年度)
|
配分額 *注記 |
4,290千円 (直接経費: 3,300千円、間接経費: 990千円)
2022年度: 1,560千円 (直接経費: 1,200千円、間接経費: 360千円)
2021年度: 1,040千円 (直接経費: 800千円、間接経費: 240千円)
2020年度: 1,690千円 (直接経費: 1,300千円、間接経費: 390千円)
|
キーワード | 学術文献データ / 事前学習言語モデル / 引用ネットワーク / 表現学習 / 事前学習モデル |
研究開始時の研究の概要 |
本研究では、大規模な学術文献データから有用な知識の抽出と発見を支援することを目的に、学術文献データのネットワーク構造を考慮した大規模ハイパーテキストデータからの事前学習言語モデルの構築に関する基本的な方法論の研究を行う。本研究では学術文献のようにテキスト同士が関係で結ばれ全体としてネットワーク構造を持ったテキストコーパスからの事前学習言語モデルを構築するための知見を明らかにする。その上で、学術文献データからの知識抽出・発見に関連するタスクに事前学習言語モデルを適用し評価を行い、実応用に関する知見を明らかにする。
|
研究成果の概要 |
膨大な学術文献データから新発見や課題解決に繋がる多様な学術知を抽出することの重要性が認識されてきている。本研究では、大規模な学術文献データから有用な知識の抽出と発見を支援することを目的に、学術文献データのネットワーク構造を考慮した大規模ハイパーテキストデータからの事前学習言語モデルの構築に関する基本的な方法論の研究を行った。研究成果として、大規模学術文献データの文献間の引用関係に基づくハイパーテキストデータから事前学習言語モデルを構築する技術ならびに事前学習言語モデルを用いて大規模な学術文献データから有用な知識の抽出と発見を支援するための技術の開発を行なった。
|
研究成果の学術的意義や社会的意義 |
まず、COVID-19に関する科学的エビデンスや重要な技術などの情報を抽出しその解析結果を広く一般に公開した。次に、 引用ネットワーク構造を考慮した文献コーパスからの事前学習言語モデル構築のための予測問題の設計と実装に取り組んだ。また、事前学習言語モデルにより獲得された分散表現を用いた引用ネットワークのリンク予測および ノード分類タスクによる評価に取り組んだ。 最後に、期間中に研究開発を行った手法を応用し、萌芽的な学術論文の発見、サーベイ論文の自動生成、研究トピックの抽出と時系列変化の可視化など、複数の新たなタスクに取り組んだ。これらの研究成果を複数の学会で発表した。
|