2017 Fiscal Year Research-status Report
大規模学術文献情報からの異種ネットワークの分散表現学習手法に関する研究
Project/Area Number |
17K00427
|
Research Institution | The University of Tokyo |
Principal Investigator |
森 純一郎 東京大学, 大学院情報理工学系研究科, 准教授 (30508924)
|
Project Period (FY) |
2017-04-01 – 2020-03-31
|
Keywords | 学術文献データ / 引用ネットワーク / 表現学習 |
Outline of Annual Research Achievements |
本研究では、大規模な学術文献情報からの有用な知識の抽出と発見を支援するために、論文データから生成される複数の異種ネットワークデータから分散表現を学習するための手法の研究を行う。これにより、大規模な論文データから生成される複数の異種ネットワークから適切な分散表現学習をする手法の知見を明らかにする。また、学習されたネットワーク分散表現が論文データ分析における複数のタスクに適用しその有効性を明らかにする。その上で、実際に大規模論文データ分析のシステム構築を行い、政策立案者、研究者、データベースプロバイダなど科学技術の複数のステークホルダの視点から、ネットワークデータを大規模な学術文献情報からの知識発見に利活用するための知見を明らかにする。 平成29年度は主に、大規模な論文データから生成される、引用ネットワーク、共著ネットワーク、などの複数の異種ネットワークから論文や著者などのエンティティの分散表現を適用タスクに応じた低次元のベクトルとして学習する技術の実現のために、関連する論文データを網羅的に収集した上で「ネットワークデータからの構造的な内容的な特徴量の抽出手法」および「異種ネットワークデータからの分散表現学習手法」について研究を進めた。その結果、主要な論文データベースから任意の学術分野ごとの数十万から数百万の論文データおよびオープンな評価用の論文データを用いて、論文、著者、組織・機関、ジャーナルなどのエンティティを抽出し、引用ネットワーク、共著ネットワークなど複数の異種ネットワークを構築した。それらの研究成果は複数の国際学会やワークショップで発表した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
平成29年度は主に、大規模な論文データから生成される、引用ネットワーク、共著ネットワーク、などの複数の異種ネットワークから論文や著者などのエンティティの分散表現を適用タスクに応じた低次元のベクトルとして学習する技術の実現のために、関連する論文データを網羅的に収集した上で「ネットワークデータからの構造的な内容的な特徴量の抽出手法」および「異種ネットワークデータからの分散表現学習手法」について研究を進める予定であったが、各研究項目は順調に進展している。大規模な論文データベースから複数の異種ネットワークを抽出する手法の設計と実装では、主要な論文データベースから任意の学術分野ごとの数十万から数百万の論文データおよびオープンな評価用の論文データを用いて、論文、著者、組織・機 関、ジャーナルなどのエンティティとそのネットワークを構築した。ネットワークデータから構造的および内容的な特徴量を抽出する手法の設計と実装では、論文データから構築した複数の異種ネットワークデータから、分散表現の学習に用いる特徴量 の抽出を行った。そして、異種ネットワークデータからの分散表現学習手法の設計と実装では、複数の異種ネットワークから抽出した特徴量に基づいて、各ネットワークの分散表現学習の検討と予備実験を行った。
|
Strategy for Future Research Activity |
平成 30 年度以降はまず、異種ネットワーク分散表現を用いた論文や著者のクラスタリング手法の設計と実装」を行う。具体的には、獲得した異種ネットワーク分散表現を2つのタスクにおいて評価を行う。1つめの評価 タスクとして、分散表現を用いた論文や著者のラベル分類やクラスタリングを行う。評価におい ては、共通の評価用データセットを用いた定量的な加えて、実際に抽出されたクラスターを可視 化することで専門家に提示し、技術ロードマッピング応用などの実用的な観点からの評価を行う。 次に、「異種ネットワーク分散表現を用いた論文や著者のインパクト予測手法の設計と実装」を行う。具体的には、分散表現を用いた論文や著者のインパクト予測を行う。インパクトの指標としては論文の引用数や著者の H-Index などを用いて、それらを分散表現から予測を行う。 評価においては、提案者らがこれまでに構築した評価用データセットを用いた定量的な加えて、 実際の予測結果を専門家に提示し、技術フォーサイト応用などの実用的な観点から評価を行う。 最後に、「実証実験による手法およびシステムの評価および改善」を行う。評価タスクを通して、手法の改善を行った上で、提案者らが保有する「学術産業技術俯瞰システ ム」を活用し、手法を大規模な論文データ分析システムの機能として実装した上で、同システムを通して政策立案者、研究者、など科学技術の複数のステークホルダ対してサービス提供を行う
|
Causes of Carryover |
設備備品について、平成29年度の研究に用いるサーバ1台を機関の従来設備で充当した。平成30年度以降は実証実験実施のためサーバーを複数台導入する。旅費ついて、平成30年度以降は研究成果の発表のため、国内学会と国際学会でのそれぞれ2回ずつ必要となる。また、謝金はシステムの構築および実証実験の補助を行う研究補助者1名に対して必要となる。
|
Research Products
(5 results)