• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2022 Fiscal Year Annual Research Report

Scholar2Vec: 研究者の多様な活動情報を埋め込める深層潜在空間の構築

Research Project

Project/Area Number 20H04484
Allocation TypeSingle-year Grants
Research InstitutionDoshisha University

Principal Investigator

桂井 麻里衣  同志社大学, 理工学部, 准教授 (70744952)

Co-Investigator(Kenkyū-buntansha) 大向 一輝  東京大学, 大学院人文社会系研究科(文学部), 准教授 (30413925)
梶原 智之  愛媛大学, 理工学研究科(工学系), 助教 (70824960)
Project Period (FY) 2020-04-01 – 2025-03-31
Keywords学術データ分析 / 研究者 / 学術情報検索
Outline of Annual Research Achievements

本研究の目的は、ビッグデータ化の進む学術情報から研究内容の特徴軸をデータドリブンに発見し、個々の研究者の専門興味を多元的に表現する技術を構築することである。具体的には、大規模論文集合に高度な意味解析を導入し、研究者の多様な活動情報を埋め込める深層潜在空間を構築する。これにより、研究活動情報に対し固定次元ベクトルを出力するモデルを構築する。
2022年度は研究代表者の休業に伴い研究を一時中断したため、当初の研究期間を1年延長することとなった。研究再開後は研究者埋め込みの算出方法について検討と実験を進めた。並行してインターネット上の研究者情報を大規模収集する手法を構築した。ウェブページのカテゴリ分類手法を導入し、学術データベースに収録されていない研究業績を補うことを試みた。以上の内容は2023年度に発表予定である。
研究成果情報から埋め込みを構築するにあたり、学術ドメインに特化した日本語のモデルが必要であり、和文論文抄録を用いて事前訓練モデルを構築した。具体的には、テキスト分類などの利用を想定した事前訓練済みエンコーダモデルと、テキスト生成などの利用を想定した事前訓練済みエンコーダ・デコーダモデルをそれぞれ用意した。文分類、文対分類、ヘッドライン生成モデルはウェブ上で公開済みである。モデルの応用として、
本研究課題により得られた知見は様々なウェブデータの学習に生かしており、その一例として動画プラットフォームに関する文書集合を用いてBERTを事前訓練し、下流タスクにおける性能を評価した。この成果は2023年度に発表予定である。

Current Status of Research Progress
Current Status of Research Progress

3: Progress in research has been slightly delayed.

Reason

研究代表者の休業に伴い研究を一時中断したため。

Strategy for Future Research Activity

中断していた研究内容は研究期間延長によって当初の予定通り行う予定である。

  • Research Products

    (6 results)

All 2023 2022

All Journal Article (1 results) (of which Int'l Joint Research: 1 results,  Peer Reviewed: 1 results) Presentation (5 results) (of which Int'l Joint Research: 2 results,  Invited: 2 results)

  • [Journal Article] Data mining topics in the discipline of library and information science: analysis of influential terms and Dirichlet multinomial regression topic model2022

    • Author(s)
      Sukjin You, Soohyung Joo, Marie Katsurai
    • Journal Title

      Aslib Journal of Information Management

      Volume: - Pages: -

    • DOI

      10.1108/AJIM-05-2022-0260

    • Peer Reviewed / Int'l Joint Research
  • [Presentation] イラスト画像における機械学習の潮流:書誌情報の分析から2023

    • Author(s)
      桂井麻里衣
    • Organizer
      第9回コミック工学研究会
    • Invited
  • [Presentation] 学術ドメインに特化した日本語事前訓練モデルの構築2023

    • Author(s)
      山内洋輝, 梶原智之, 桂井麻里衣, 大向一輝, 二宮崇
    • Organizer
      言語処理学会第29回年次大会
  • [Presentation] SolutionTailor: Scientific Paper Recommendation Based on Fine-Grained Abstract Analysis2022

    • Author(s)
      Tetsuya Takahashi, Marie Katsurai
    • Organizer
      44th European Conference on Information Retrieval (ECIR2022)
    • Int'l Joint Research
  • [Presentation] A Japanese Masked Language Model for Academic Domain2022

    • Author(s)
      Hiroki Yamauchi, Tomoyuki Kajiwara, Marie Katsurai, Ikki Ohmukai, Takashi Ninomiya
    • Organizer
      Third Workshop on Scholarly Document Processing (SDP2022)
    • Int'l Joint Research
  • [Presentation] 学術情報検索と推薦2022

    • Author(s)
      桂井麻里衣
    • Organizer
      NLP若手の会 (YANS) 第17回シンポジウム
    • Invited

URL: 

Published: 2023-12-25  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi