Scholar2Vec: 研究者の多様な活動情報を埋め込める深層潜在空間の構築
Project/Area Number |
20H04484
|
Research Category |
Grant-in-Aid for Scientific Research (B)
|
Allocation Type | Single-year Grants |
Section | 一般 |
Review Section |
Basic Section 90020:Library and information science, humanistic and social informatics-related
|
Research Institution | Doshisha University |
Principal Investigator |
桂井 麻里衣 同志社大学, 理工学部, 准教授 (70744952)
|
Co-Investigator(Kenkyū-buntansha) |
大向 一輝 東京大学, 大学院人文社会系研究科(文学部), 准教授 (30413925)
梶原 智之 愛媛大学, 理工学研究科(工学系), 助教 (70824960)
|
Project Period (FY) |
2020-04-01 – 2025-03-31
|
Project Status |
Granted (Fiscal Year 2023)
|
Budget Amount *help |
¥18,070,000 (Direct Cost: ¥13,900,000、Indirect Cost: ¥4,170,000)
Fiscal Year 2023: ¥1,560,000 (Direct Cost: ¥1,200,000、Indirect Cost: ¥360,000)
Fiscal Year 2022: ¥2,990,000 (Direct Cost: ¥2,300,000、Indirect Cost: ¥690,000)
Fiscal Year 2021: ¥2,600,000 (Direct Cost: ¥2,000,000、Indirect Cost: ¥600,000)
Fiscal Year 2020: ¥10,920,000 (Direct Cost: ¥8,400,000、Indirect Cost: ¥2,520,000)
|
Keywords | 学術データ分析 / 自然言語処理 / 研究者 / 学術情報検索 / 学術ビッグデータ / 学術論文データベース / BERT |
Outline of Research at the Start |
本研究の目的は,ビッグデータ化の進む学術情報から研究内容の特徴軸をデータドリブンに発見し,個々の研究者の専門興味を多元的に表現する技術を構築することである.具体的には,大規模論文集合に高度な意味解析を導入し,研究者の多様な活動情報を埋め込める深層潜在空間を構築する.これにより,研究活動情報に対し固定次元ベクトルを出力するモデルScholar2Vecを確立する.
|
Outline of Annual Research Achievements |
本研究の目的は、ビッグデータ化の進む学術情報から研究内容の特徴軸をデータドリブンに発見し、個々の研究者の専門興味を多元的に表現する技術を構築することである。具体的には、大規模論文集合に高度な意味解析を導入し、研究者の多様な活動情報を埋め込める深層潜在空間を構築する。これにより、研究活動情報に対し固定次元ベクトルを出力するモデルを構築する。 2022年度は研究代表者の休業に伴い研究を一時中断したため、当初の研究期間を1年延長することとなった。研究再開後は研究者埋め込みの算出方法について検討と実験を進めた。並行してインターネット上の研究者情報を大規模収集する手法を構築した。ウェブページのカテゴリ分類手法を導入し、学術データベースに収録されていない研究業績を補うことを試みた。以上の内容は2023年度に発表予定である。 研究成果情報から埋め込みを構築するにあたり、学術ドメインに特化した日本語のモデルが必要であり、和文論文抄録を用いて事前訓練モデルを構築した。具体的には、テキスト分類などの利用を想定した事前訓練済みエンコーダモデルと、テキスト生成などの利用を想定した事前訓練済みエンコーダ・デコーダモデルをそれぞれ用意した。文分類、文対分類、ヘッドライン生成モデルはウェブ上で公開済みである。モデルの応用として、 本研究課題により得られた知見は様々なウェブデータの学習に生かしており、その一例として動画プラットフォームに関する文書集合を用いてBERTを事前訓練し、下流タスクにおける性能を評価した。この成果は2023年度に発表予定である。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
研究代表者の休業に伴い研究を一時中断したため。
|
Strategy for Future Research Activity |
中断していた研究内容は研究期間延長によって当初の予定通り行う予定である。
|
Report
(3 results)
Research Products
(15 results)