2016 Fiscal Year Research-status Report
複数の指標による類似度を用いた再現率の高い学術論文検索システムの開発
Project/Area Number |
15K00310
|
Research Institution | FUJITSU LABORATORIES LTD. |
Principal Investigator |
馬場 謙介 株式会社富士通研究所, その他部局等, 研究員(移行) (70380681)
|
Co-Investigator(Kenkyū-buntansha) |
南 俊朗 九州情報大学, 経営情報学部, 名誉教授 (80315150)
|
Project Period (FY) |
2015-04-01 – 2018-03-31
|
Keywords | データマイニング / 計量書誌学 / 検索システム / 引用解析 / 文書分類 |
Outline of Annual Research Achievements |
学術研究でのサーベイ活動等において,急激に増加する学術論文に対する見落としの少ない(再現率の高い)検索技術が求められる.本研究の目的は,複数の指標に基づく学術論文間の類似性を利用し,再現率の高い学術論文検索システムを開発することである.平成28年度の計画は「指標の組み合わせによる学術論文間の類似度の定量化」および「学術論文データの収集」を行うことであった.「指標の組み合わせによる学術論文間の類似度の定量化」では,語の低次元ベクトルでの表現(分散表現)を大量の学術論文データから機械学習によって取得し,これをパターン照合的な手法と組み合わせることにより,学術論文間の類似箇所を検出する技術を開発した.類似箇所を剽窃としてとらえ,公開されている剽窃検知用データセットに対し,検出精度と実行時間についての有用なトレードオフを得た.また,学術論文の引用情報について,研究分野情報との組み合わせによる細分化とその可視化を行った.これらは学術論文間の類似度の詳細な解析を可能にし,この技術の実際の検索システムへの応用方法を示している.また,図書閲覧数の時間変化を利用した利用予測技術を開発した.これは学術論文引用数やダウンロード数に応用可能である.「学術論文データの収集」については,文書の統計的解析により類似度を定式化するために,十分な量のデータを収集するに至った.収集したデータから機械学習により語の分散表現を取得し,これを用いた学術論文中の類似箇所の検索や分類において精度や計算時間の改善が得られた.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
平成28年度に計画していた2つの項目について,それぞれ,以下の成果を得た.「指標の組み合わせによる学術論文間の類似度の定量化」では,語の分散表現とパターン照合的な手法による指標,引用情報と研究分野情報,および,閲覧情報と経過時間との組み合わせにより,学術論文(または,書籍)間の類似部分の検索や分類を行った.「学術論文データの収集」については,前年度に一部を前倒しで行い,本年度には十分な量のデータを収集するに至った.しかし,これらのデータの検索システムでの対象としての利用は困難であることがわかった.これらのデータは,前述の研究成果において語の分散表現を取得するための訓練データとして利用しており,学術論文についての類似箇所の検索や分類において効果が有る程度の量である.本研究課題全体の方針として,これらのデータは検索システムを構成する要素技術の開発に利用する.
|
Strategy for Future Research Activity |
平成29年度は「学術論文検索システムの実装と検証」を計画している.平成28年度までの研究成果で得た学術論文間類似度の指標について,実装と検証を行う.学術論文の書誌情報と引用情報から得られる既存手法に加え,語の分散表現を用いた統計的解析による指標を対象とする.申請者の所属研究機関の異動により,所属機関において具体的なシステムを公開することが困難になったため,システム構築のために購入予定であったサーバは,九州大学情報基盤研究開発センターの機能提供を利用することで置き換え,研究課題全体としては基盤技術の検証に重点を置くようにする.
|
Causes of Carryover |
当該助成金の一部については,既に4月開催の国際会議に投稿論文が受理されているが,旅費と参加費について今年度中の事務処理手続きが叶わなかった.また,その他については,投稿論文の掲載が遅れたため予定していた論文掲載料として執行できなかった.
|
Expenditure Plan for Carryover Budget |
4月開催の国際会議のための旅費と参加費論文,および,誌掲載料として使用予定である.
|
Research Products
(14 results)
-
-
-
-
-
-
-
-
-
-
-
-
-
[Presentation] A Visual Citation Search Engine2016
Author(s)
Tetsuya Nakatoh, Hayato Nakanishi, Toshiro Minami, Kensuke Baba, and Sachio Hirokawa
Organizer
18th International Conference on Human-Computer Interaction
Place of Presentation
Toronto, Canada
Year and Date
2016-07-17 – 2016-07-22
Int'l Joint Research
-