研究課題/領域番号 |
20H04484
|
配分区分 | 補助金 |
研究機関 | 同志社大学 |
研究代表者 |
桂井 麻里衣 同志社大学, 理工学部, 准教授 (70744952)
|
研究分担者 |
大向 一輝 東京大学, 大学院人文社会系研究科(文学部), 准教授 (30413925)
梶原 智之 愛媛大学, 理工学研究科(工学系), 助教 (70824960)
|
研究期間 (年度) |
2020-04-01 – 2024-03-31
|
キーワード | 学術データ分析 / 研究者 / 学術情報検索 / BERT |
研究実績の概要 |
本研究の目的は、ビッグデータ化の進む学術情報から研究内容の特徴軸をデータドリブンに発見し、個々の研究者の専門興味を多元的に表現する技術を構築することである。具体的には、大規模論文集合に高度な意味解析を導入し、研究者の多様な活動情報を埋め込める深層潜在空間を構築する。これにより、研究活動情報に対し固定次元ベクトルを出力するモデルを構築する。 研究業績に書かれたテキストは、著者の専門内容を特徴付ける有力な情報となる。これらの埋め込み表現を用いることで研究者の特徴ベクトルを算出できる可能性が高い。文の埋め込みにはBidirectional Encoder Representations from Transformers (BERT) が候補として挙げられる。これまでに医療やSNSなどのドメインでは日本語BERTモデルが構築されてきたが、学術ドメインに特化した事前学習済みモデルは用意されていなかった。そこで2021年度は、CiNii Articlesに収録された日本語論文のタイトル・概要を大量に用意し、学術ドメインに特化したBERTモデルの訓練に取り組んだ。著者同定問題などの下流タスクを設計し、実験を行った結果、提案モデルが既存の事前学習済みモデルよりも各タスクの性能を向上できることが明らかとなった。 以上の研究で得た知見をもとに、様々なドメインのモデル訓練にも着手した。下流タスク設計の一例として、動画コメントカテゴリ分類問題を設計し、その内容を国際会議で発表した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
学術ドメインに特化した日本語モデルの構築と、その下流タスクでの性能評価が行えた。また、研究で得た知見を学術ドメイン以外にも応用できた。
|
今後の研究の推進方策 |
構築したBERTをもとに研究者の埋め込みを算出する。また、2020年度に構築した研究者検索インタフェースへ実装し、検索の高度化をはかる。
|