2017 Fiscal Year Research-status Report
Project/Area Number |
16K00438
|
Research Institution | University of Tsukuba |
Principal Investigator |
辻 慶太 筑波大学, 図書館情報メディア系, 准教授 (30333545)
|
Project Period (FY) |
2016-04-01 – 2019-03-31
|
Keywords | Wikipedia / 図書推薦 / 深層学習 / 畳み込みニューラルネットワーク / 日本十進分類法 |
Outline of Annual Research Achievements |
日本の大学図書館では,学生はWikipediaのページを閲覧し,図書館の蔵書は閲覧せずに退館する傾向がある。Wikipediaは調べ物や学習にとって有用な情報源であるが,図書館の蔵書も利用した方がより深い知識が得られるはずである。もしWikipediaの各ページで,そのページに関連する図書館蔵書が表示されたら,学生はその図書を利用するかもしれない。そのような前提の下,本研究では図書館内のパソコンのブラウザ上でWikipedia閲覧者に図書推薦を行うアドオンを開発している。 上記アドオンは,(1)各Wikipediaページの内容を把握し,コンピュータ処理可能な形で表現して,(2)各蔵書の内容とのマッチングを行い,内容の類似などに基づいて,適切な推薦図書を決定する。平成28年度には,このうち(1)に関する研究を行い,国際会議QQML 2017 (9th Qualitative and Quantitative Methods in Libraries International Conference) で発表した。具体的には“Automatic Classification of Wikipedia Articles by Using Convolutional Neural Network”というタイトルで,8ページの国際会議論文を,5月25日にアイルランドのリムリックで発表した。 内容としては,Wikipediaの3,985ページに対して日本十進分類法(以下,NDC)の分類コードを付与し,300ページをテスト用,残り3,685ページを学習用とし,深層学習の畳み込みニューラルネットワークを用いて,NDCコードを付与する実験等を行った。結果,87.7%という十分な精度を得た。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本研究の背景は,大学生の多くが自身の大学図書館を訪れるものの,そこにあるパソコンでWikipediaを閲覧し,図書館の蔵書などは手に取らずに退館してしまうという現象である。上記のような大学生に図書館の蔵書を利用させ,より深い知識を得てもらうためには,(1)各Wikipediaページの内容を把握してコンピュータ処理可能な形で表現し,(2)その上で,図書館が所蔵する図書の内容とのマッチングを行い,内容の類似やレベルなどに基づいて,初学者にとって適切な図書を決定し推薦することが有効である。 即ち本研究で開発するシステムは上記(1)と(2)という2つの処理が行える必要があるが,筆者はこのうち(1)の処理を平成28年度に実装し,国際会議論文として発表し,一定の完成を見た。具体的には,各Wikipediaページの内容は深層学習の畳み込みニューラルネットワークを用いて日本十進分類法の分類コードで表現するシステムを開発した。今後は(2)の処理を実装し,研究として完成させれば良いという状況である。もちろん(2)の研究を通じて,(1)の部分を再検討し,パラメータの微調整などを行う必要があるかもしれないが,そのコストは軽微である。 以上のことから本研究課題はおおむね順調に進展していると考える。
|
Strategy for Future Research Activity |
本研究課題は,各Wikipediaページに関して,初学者にとって適切な図書を推薦するシステムを開発することである。先述のように本研究システムは,(1)各Wikipediaページの内容を把握してコンピュータ処理可能な形で表現し,(2)その上で,各図書の内容とのマッチングを行い,内容の類似などに基づいて推薦図書を決定する,というものである。(1)については平成28年度に完了したので,今後の研究の推進方策は主に(2)を行っていくことである。(1)では各Wikipediaページの内容は日本十進分類法(以下,NDC)の分類コードで表現した。各Wikipediaページと各図書のマッチングでは,両者のNDCコードの一致と,各Wikipediaページのタイトルやカテゴリと図書のタイトルの類似度などで行うことを考えている。この部分は比較的少数のパラメータで推薦図書を決定する。推薦図書を決定した後は被験者を募って評価してもらうが,その評価を受けて(1)(2)の各種パラメータを再調整する。そして再度推薦図書を決定し,被験者に評価してもらう。これを繰り返す。今後の研究はそのようなフィードバックとパラメータ調整の繰り返しによって行う。
|
Research Products
(1 results)