2016 Fiscal Year Research-status Report
Project/Area Number |
16K00438
|
Research Institution | University of Tsukuba |
Principal Investigator |
辻 慶太 筑波大学, 図書館情報メディア系, 准教授 (30333545)
|
Project Period (FY) |
2016-04-01 – 2019-03-31
|
Keywords | Wikipedia / 図書推薦 |
Outline of Annual Research Achievements |
図書館における Wikipedia 閲覧者に対して図書館の蔵書を推薦するという本研究の目標に向けて,Wikipedia の各ページに挙げられている参考文献の図書がどの程度利用可能かを調べた。具体的には Wikipedia の各ページの参考文献にはどの程度図書が挙げられているか,またそれらの NDC(Nippon Decimal Classification:日本十進分類法)カテゴリは互いにどの程度一致しているかを調べ,それら数量的な結果を以下の国際会議 ESKM 2016で発表した。
Tsuji, Keita (2016) "Books Cited in Wikipedia: Possibility to Use their Nippon Decimal Classification Categories for Book Recommendation," Proceedings of the 7th International Conference on E-Service and Knowledge Management (ESKM 2016). (10th-14th (12th) July, 2016 at Kumamoto City International Center, Kumamoto, Japan) p.1196-1197.
こうした予備調査の結果,参考文献には比較的多くの図書が挙げられており,またそれら図書の NDC カテゴリは類だけでなく綱レベルでも概ね一致していることが分かった。従って,それらを当該ページの主題に関する NDC 表現とみなすことは,複雑な操作を行う必要がないという意味で,可能であり,またそのページの閲覧者には該当 NDC の図書を優先的に推薦することが技術的には可能であることも示された。ただしそのようにして NDC を推測し,実際に図書推薦に用いた場合に有効であるかは検証が必要であり,今後進めて行く予定である。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
「研究実績の概要」に記した通り,Wikipedia 閲覧者に図書推薦を行うに当たって,その図書の NDC を推測する手法が開発できる感触が得られた。具体的には各ページの参考文献に挙げられている図書の NDC をそのページの NDC とみなし,各ページのタイトル,本文,カテゴリなどからその NDC を推測する機械学習手法のための学習用データが得られる感触が得られた。Wikipedia のページによっては参考文献が全く挙げられていないこともあるが,挙げられているページを学習用データとすることで,そのページのタイトル,本文,カテゴリから NDC を推測する手法が開発できると思われる。そうした仮定のもと,上記学習用データから NDC を推測する深層学習手法を開発した。深層学習にはいくつかの手法があるが,今回はテキスト自動分類に適した畳み込みニューラルネットワークを用いた。その成果は国際会議 QQML 2017に採択され,本年5月にアイルランドで発表する予定である。NDC を推測する手法が確立すれば,NDC を援用して図書推薦を行うことが可能となり,本研究は完成に近づく。以上のことから,研究はおおむね順調に進展していると考える。
|
Strategy for Future Research Activity |
上述した通り,本研究はおおむね順調に進展している。今後は申請書に記した計画で研究を進めたい。具体的には Wikipedia のいくつかの見出し語に関して国立国会図書館のレファレンス協同データベースの調べ方マニュアルや,様々な大学図書館のパスファインダーに記された図書などから推薦すべき図書のサンプルを入手する。そして各 Wikipedia ページのタイトル,本文,カテゴリ,さらには上述した NDC 推定結果などを特徴素として深層学習,特に畳み込みニューラルネットワークにかけ,図書館の蔵書の中から推薦すべき図書を特定する手法の開発に取り組みたい。
|
Causes of Carryover |
学生や大学教員を被験者として雇って「人件費・謝金」として3,026円を使用する予定であったが,その前に本研究が主要な研究基盤とする Wikipedia について基礎的な調査を行い,各ページの NDC(Nippon Decimal Classification:日本十進分類法)カテゴリを推測する可能性を探った方が最終的に研究の完成を早めると判断したため,学生・大学教員を雇うことなく,無料で進められる上記研究を進めた。その結果,上記金額が余ることとなった。
|
Expenditure Plan for Carryover Budget |
上述した通り,学生や大学教員を被験者として雇って3,026円を「人件費・謝金」の一部として使用し,Wikipedia 閲覧者に対する図書推薦手法開発の学習用データの整備に当てる予定である。具体的には現在得られている NDC 自動推定手法によって推定された NDC とタイトルの類似度が高い図書を図書館蔵書から特定し,被験者に示す。被験者には推薦される図書としての適否を判断してもらい,適切なものを学習用データの正例,適切でないと判断されたものを負例として扱う。
|
Research Products
(1 results)