2020 Fiscal Year Annual Research Report
Scholar2Vec: 研究者の多様な活動情報を埋め込める深層潜在空間の構築
Project/Area Number |
20H04484
|
Allocation Type | Single-year Grants |
Research Institution | Doshisha University |
Principal Investigator |
桂井 麻里衣 同志社大学, 理工学部, 准教授 (70744952)
|
Co-Investigator(Kenkyū-buntansha) |
大向 一輝 東京大学, 大学院人文社会系研究科(文学部), 准教授 (30413925)
梶原 智之 大阪大学, データビリティフロンティア機構, 特任助教(常勤) (70824960)
|
Project Period (FY) |
2020-04-01 – 2024-03-31
|
Keywords | 学術データ分析 / 研究者 / 学術情報検索 |
Outline of Annual Research Achievements |
本研究の目的は、ビッグデータ化の進む学術情報から研究内容の特徴軸をデータドリブンに発見し、個々の研究者の専門興味を多元的に表現する技術を構築することである。具体的には、大規模論文集合に高度な意味解析を導入し、研究者の多様な活動情報を埋め込める深層潜在空間を構築する。これにより、研究活動情報に対し固定次元ベクトルを出力するモデルを構築する。 2020年度は、本研究課題の基盤技術として、異なる学術データベース間の著者マッチング手法を構築した。提案手法では、同一氏名のレコード間で複数の類似度尺度を算出し、それらを集約して同一著者と思われる順にレコードをランキングする。英語データベースとしてDBLPとPubMed、日本語データベースとしてKAKENを用いた実験を行った結果、単一の類似度に比べて集約スコアのが最も精度良くランキングできることを示し、詳細をジャーナル論文で公表した。構築した手法は今後の研究者の埋め込み算出に用いる予定である。 また、国内研究者を日本地図上でインタラクティブに探すことのできる検索システムを構築し、国際会議にて発表した。提案システムに研究者の名前をクエリとして与えると、研究者間の専門内容の類似度や共同研究関係に基づき、様々な関連研究者が表示される。二種類の類似性指標による推薦結果には互いに重複が少なく、共同研究者候補の発見に役立つ可能性があることが示された。以上の成果は国際会議で報告した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本研究課題の主要トピックである研究者の埋め込み算出に必要なデータ収集手法の構築と、埋め込みによる情報検索の提案、他分野への応用の三点を進めることができた。
|
Strategy for Future Research Activity |
研究者の専門トピックを表すために、研究業績から得られる文の埋め込みを予定している。今後は日本語の学術論文データを用いた言語モデルを独自に訓練する。それと並行して研究者のデータ収集方法も検討を進める。
|