• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2017 年度 実施状況報告書

大規模学術文献情報からの異種ネットワークの分散表現学習手法に関する研究

研究課題

研究課題/領域番号 17K00427
研究機関東京大学

研究代表者

森 純一郎  東京大学, 大学院情報理工学系研究科, 准教授 (30508924)

研究期間 (年度) 2017-04-01 – 2020-03-31
キーワード学術文献データ / 引用ネットワーク / 表現学習
研究実績の概要

本研究では、大規模な学術文献情報からの有用な知識の抽出と発見を支援するために、論文データから生成される複数の異種ネットワークデータから分散表現を学習するための手法の研究を行う。これにより、大規模な論文データから生成される複数の異種ネットワークから適切な分散表現学習をする手法の知見を明らかにする。また、学習されたネットワーク分散表現が論文データ分析における複数のタスクに適用しその有効性を明らかにする。その上で、実際に大規模論文データ分析のシステム構築を行い、政策立案者、研究者、データベースプロバイダなど科学技術の複数のステークホルダの視点から、ネットワークデータを大規模な学術文献情報からの知識発見に利活用するための知見を明らかにする。
平成29年度は主に、大規模な論文データから生成される、引用ネットワーク、共著ネットワーク、などの複数の異種ネットワークから論文や著者などのエンティティの分散表現を適用タスクに応じた低次元のベクトルとして学習する技術の実現のために、関連する論文データを網羅的に収集した上で「ネットワークデータからの構造的な内容的な特徴量の抽出手法」および「異種ネットワークデータからの分散表現学習手法」について研究を進めた。その結果、主要な論文データベースから任意の学術分野ごとの数十万から数百万の論文データおよびオープンな評価用の論文データを用いて、論文、著者、組織・機関、ジャーナルなどのエンティティを抽出し、引用ネットワーク、共著ネットワークなど複数の異種ネットワークを構築した。それらの研究成果は複数の国際学会やワークショップで発表した。

現在までの達成度 (区分)
現在までの達成度 (区分)

2: おおむね順調に進展している

理由

平成29年度は主に、大規模な論文データから生成される、引用ネットワーク、共著ネットワーク、などの複数の異種ネットワークから論文や著者などのエンティティの分散表現を適用タスクに応じた低次元のベクトルとして学習する技術の実現のために、関連する論文データを網羅的に収集した上で「ネットワークデータからの構造的な内容的な特徴量の抽出手法」および「異種ネットワークデータからの分散表現学習手法」について研究を進める予定であったが、各研究項目は順調に進展している。大規模な論文データベースから複数の異種ネットワークを抽出する手法の設計と実装では、主要な論文データベースから任意の学術分野ごとの数十万から数百万の論文データおよびオープンな評価用の論文データを用いて、論文、著者、組織・機 関、ジャーナルなどのエンティティとそのネットワークを構築した。ネットワークデータから構造的および内容的な特徴量を抽出する手法の設計と実装では、論文データから構築した複数の異種ネットワークデータから、分散表現の学習に用いる特徴量 の抽出を行った。そして、異種ネットワークデータからの分散表現学習手法の設計と実装では、複数の異種ネットワークから抽出した特徴量に基づいて、各ネットワークの分散表現学習の検討と予備実験を行った。

今後の研究の推進方策

平成 30 年度以降はまず、異種ネットワーク分散表現を用いた論文や著者のクラスタリング手法の設計と実装」を行う。具体的には、獲得した異種ネットワーク分散表現を2つのタスクにおいて評価を行う。1つめの評価 タスクとして、分散表現を用いた論文や著者のラベル分類やクラスタリングを行う。評価におい ては、共通の評価用データセットを用いた定量的な加えて、実際に抽出されたクラスターを可視 化することで専門家に提示し、技術ロードマッピング応用などの実用的な観点からの評価を行う。
次に、「異種ネットワーク分散表現を用いた論文や著者のインパクト予測手法の設計と実装」を行う。具体的には、分散表現を用いた論文や著者のインパクト予測を行う。インパクトの指標としては論文の引用数や著者の H-Index などを用いて、それらを分散表現から予測を行う。 評価においては、提案者らがこれまでに構築した評価用データセットを用いた定量的な加えて、 実際の予測結果を専門家に提示し、技術フォーサイト応用などの実用的な観点から評価を行う。
最後に、「実証実験による手法およびシステムの評価および改善」を行う。評価タスクを通して、手法の改善を行った上で、提案者らが保有する「学術産業技術俯瞰システ ム」を活用し、手法を大規模な論文データ分析システムの機能として実装した上で、同システムを通して政策立案者、研究者、など科学技術の複数のステークホルダ対してサービス提供を行う

次年度使用額が生じた理由

設備備品について、平成29年度の研究に用いるサーバ1台を機関の従来設備で充当した。平成30年度以降は実証実験実施のためサーバーを複数台導入する。旅費ついて、平成30年度以降は研究成果の発表のため、国内学会と国際学会でのそれぞれ2回ずつ必要となる。また、謝金はシステムの構築および実証実験の補助を行う研究補助者1名に対して必要となる。

  • 研究成果

    (5件)

すべて 2017

すべて 雑誌論文 (1件) (うち査読あり 1件) 学会発表 (4件)

  • [雑誌論文] Extractive Summarization Using Multi-Task Learning with Document Classification2017

    • 著者名/発表者名
      Masaru Isonuma, Toru Fujino, Junichiro Mori, Yutaka Matsuo and Ichiro Sakata
    • 雑誌名

      Proceeding of EMNLP

      巻: 1 ページ: pp.2101-2110

    • 査読あり
  • [学会発表] Predicting future citation from the temporal information of citation network2017

    • 著者名/発表者名
      Kimitaka Asatani
    • 学会等名
      Predicting future citation from the temporal information of citation network
  • [学会発表] 文書分類とのマルチタスク学習による重要文抽出2017

    • 著者名/発表者名
      磯沼 大
    • 学会等名
      第31回人工知能学会全国大会
  • [学会発表] ネットワークからの時系列情報の抽出と可視化2017

    • 著者名/発表者名
      浅谷 公威
    • 学会等名
      第31回人工知能学会全国大会
  • [学会発表] 深層学習を用いた論文書誌情報による研究専門分野ラベリング2017

    • 著者名/発表者名
      田中 和哉
    • 学会等名
      第31回人工知能学会全国大会

URL: 

公開日: 2018-12-17  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi