研究課題/領域番号 |
20H04484
|
配分区分 | 補助金 |
研究機関 | 同志社大学 |
研究代表者 |
桂井 麻里衣 同志社大学, 理工学部, 准教授 (70744952)
|
研究分担者 |
大向 一輝 東京大学, 大学院人文社会系研究科(文学部), 准教授 (30413925)
梶原 智之 愛媛大学, 理工学研究科(工学系), 助教 (70824960)
|
研究期間 (年度) |
2020-04-01 – 2025-03-31
|
キーワード | 学術データ分析 / 研究者 / 学術情報検索 |
研究実績の概要 |
本研究の目的は、ビッグデータ化の進む学術情報から研究内容の特徴軸をデータドリブンに発見し、個々の研究者の専門興味を多元的に表現する技術を構築することである。具体的には、大規模論文集合に高度な意味解析を導入し、研究者の多様な活動情報を埋め込める深層潜在空間を構築する。これにより、研究活動情報に対し固定次元ベクトルを出力するモデルを構築する。 2022年度は研究代表者の休業に伴い研究を一時中断したため、当初の研究期間を1年延長することとなった。研究再開後は研究者埋め込みの算出方法について検討と実験を進めた。並行してインターネット上の研究者情報を大規模収集する手法を構築した。ウェブページのカテゴリ分類手法を導入し、学術データベースに収録されていない研究業績を補うことを試みた。以上の内容は2023年度に発表予定である。 研究成果情報から埋め込みを構築するにあたり、学術ドメインに特化した日本語のモデルが必要であり、和文論文抄録を用いて事前訓練モデルを構築した。具体的には、テキスト分類などの利用を想定した事前訓練済みエンコーダモデルと、テキスト生成などの利用を想定した事前訓練済みエンコーダ・デコーダモデルをそれぞれ用意した。文分類、文対分類、ヘッドライン生成モデルはウェブ上で公開済みである。モデルの応用として、 本研究課題により得られた知見は様々なウェブデータの学習に生かしており、その一例として動画プラットフォームに関する文書集合を用いてBERTを事前訓練し、下流タスクにおける性能を評価した。この成果は2023年度に発表予定である。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
研究代表者の休業に伴い研究を一時中断したため。
|
今後の研究の推進方策 |
中断していた研究内容は研究期間延長によって当初の予定通り行う予定である。
|