まず、特定の人物の学術キーワードを検出するために、Scopusデータベースから46人のノーベル賞受賞者の論文からテキストデータを収集した。テキストデータから、多様体学習を用いて各単語の特徴値を計算し、その後、特徴値上位20の単語を実際の受賞理由と比較し、キーワードが正しく抽出されたかどうかを検証した。その結果、38人の受賞者で、少なくとも1つの上位20の単語が受賞理由と一致した(全体の一致率82.6%)。
次に、「genome science」という特定の研究分野での注目トピックを抽出するために、Scopusデータベースからキーワード検索を用いて出版タイトルのテキストデータを収集した。2001年から2018年までの32万以上の出版物を多様体学習とクラスタリングにより分析した結果、15つのクラスターが得られた。その後これらのクラスターを3つのクラスに分類した。クラス1:「science」、「genetics」といった、特徴値が高止まりした基本的単語グループ。クラス2:「microbiome」、「CRISPR/cas」、「Zika」、「colistin」といった、特徴値の急増した注目トピックグループ。クラス3:特徴値が不安定なグループ。その後、クラス2の文献調査により、一部の単語が学術的に高く評価されていることが明らかになった。この手法によって、各シグナルの出版物数の情報を入力せず、これらのシグナルを検出した。
本研究で、既存の指標を使用せず、単純な多様体学習とクラスタリングによって、研究コミュニティの規模に関係なく、迅速に注目トピックを検出する新しい概念が提案された。現在は本成果を日本語に適応中である。
|