2015 Fiscal Year Research-status Report
複数の指標による類似度を用いた再現率の高い学術論文検索システムの開発
Project/Area Number |
15K00310
|
Research Institution | FUJITSU LABORATORIES LTD. |
Principal Investigator |
馬場 謙介 株式会社富士通研究所, その他部局等, 研究員 (70380681)
|
Co-Investigator(Kenkyū-buntansha) |
南 俊朗 九州情報大学, 経営情報学部, 教授 (80315150)
|
Project Period (FY) |
2015-04-01 – 2018-03-31
|
Keywords | データマイニング / 計量書誌学 / 検索システム / 引用解析 / 文書分類 |
Outline of Annual Research Achievements |
本研究の目的は,複数の指標に基づく学術論文間の類似性を利用し,再現率の高い学術論文検索システムを開発することである.平成27年度の計画は,「学術論文検索システムに対する要求調査」および「文書の統計的解析による類似度の定式化の調査」を行うことであった. 学術論文検索システムに対する要求調査については,調査の過程で実際の学術論文データに対して解析を行った.特に,論文の引用情報に関する解析で事例としての研究成果を得た.他の論文からの引用数は論文や論文誌,研究者を評価するための指標として用いられるが,引用数そのものに加え研究分野毎の分布や経年変化を解析し,学術論文検索システムに有用な情報が得られることがわかった.これらの成果を,それぞれ,国際会議にて発表した.また,最終的なシステムでの実装へむけて,引用関係の可視化を行った.この成果を論文誌論文として発表した. 文書の統計的解析による類似度の定式化の調査については,学術論文および引用関係のテンソルによる表現を考えるべきであるとの考えに至った.論文自体のテンソル表現については,語の出現頻度に基づくベクトル化(bag of words,BoW)に加えて,語の次元の少ないベクトル表現(分散表現)に基づくものが新しい技術として注目されていることがわかった. また,平成28年度に予定している学術論文データの収集の一部を前倒しで行った.収集したデータから分散表現を取得する際,どのような手法が効率的か,また,後の解析に効果的かを明らかにする必要があることがわかった.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
平成27年度に計画していた調査の2つの項目について,それぞれ,次年度につながる結論を得た.学術論文検索システムに対する要求調査では,論文の内容だけでなく論文誌や研究者の評価や,それらの時間的な推移がわかることが重要である.これらは引用情報の構造や時間変化についての詳しい解析を行うことでひとつの答えが得られると予想される.また,文書の統計的解析による類似度の定式化の調査については,本文や引用情報のテンソルによる表現が有効であると考えるに至った.これらの解析の手段について,時間や計算資源的な効率とともに,学術論文の解析に適用した場合の効果を調べ,最終的なシステムの実装方法を判断する予定である. 平成27年8月に代表者が所属機関を変更したが,本年度の成果としては概ね計画通りのものを得た.代表者と分担者の連携を保つため打ち合わせを行い,このために当初の計画には無かった旅費を執行し,プログラム開発のためのPC等の購入を次年度以降に先送りした.
|
Strategy for Future Research Activity |
平成28年度は,学術論文の類似度として既存の指標によるものと,本文の統計的解析によるものを組み合わせ,その影響を明らかにする.既存の指標は書誌情報,引用情報,閲覧履歴情報から得られるものである.統計的解析による指標は,BoWと分散表現による学術論文本文のテンソル表現によるものと,引用関係のテンソル表現によるものである.統計的解析による指標に基づく類似度により,既存の指標では表現できない類似性を見つけることを目標とする.このために,評価用のデータセットを生成し,分散表現については生成や適用において効率的・効果的な手法の開発を目指す. 平成28年度も,代表者と分担者の連携を保つため月に1度程度の打ち合わせを行い,このために旅費を執行する.必要であれば,システム構築のために購入予定であったサーバは,次年度以降に購入するか,機能だけを提供する市販や学術機関のサービスのうち安価なものを利用する.
|
Causes of Carryover |
研究成果論文の校正に使用する予定であったが,論文の完成が遅れたため相当額の繰り越しが生じた.
|
Expenditure Plan for Carryover Budget |
繰り越し分は平成28年度4月に執行予定である.
|
Research Products
(5 results)