2014 Fiscal Year Research-status Report
快適なWeb検索のための検索用語の獲得支援に関する研究
Project/Area Number |
25330368
|
Research Institution | Ryukoku University |
Principal Investigator |
馬 青 龍谷大学, 理工学部, 教授 (30358882)
|
Co-Investigator(Kenkyū-buntansha) |
吉見 毅彦 龍谷大学, 理工学部, 准教授 (50368031)
南條 浩輝 龍谷大学, 理工学部, 助教 (50388162)
|
Project Period (FY) |
2013-04-01 – 2017-03-31
|
Keywords | 深層学習 / DBN/SdA/word2vec / 用語予測 / 検索支援 / 関連語・周辺語 / 意味ベクトル / 非構造化文書 / 擬似適合性フィードバック |
Outline of Annual Research Achievements |
Web検索において検索用語がわからないことに不満を感じる人は57.6%に上る。提案研究はこのような不満を軽減し、快適な検索ができるように検索用語をその説明文または関連語・周辺語を用いて獲得する手法の研究開発を目的としている。 初年度では深層学習(Deep Learning)の一種であるDBNを用いた検索用語の予測手法を提案し、小規模な実験では従来の機械学習手法より有効であることを確認した。今年度では、DBNに加えSdAを用いた深層学習も実現し、実験規模を10倍に拡大して、提案手法の有効性を確認した。また、深層学習を用いた提案手法では、自動で収集したノイズの多い教師なしデータを用いても検索用語の予測精度が向上することが確認でき、有効な学習データの自動獲得についての知見が得られた。さらに、汎化能力を高めるためにDropoutなどの正則化を加えた実験も行い提案手法のほうが従来手法より優位であることを確認した。 提案研究関連の要素技術の研究として、深層学習の一種であるword2vecをを用いたIT用語の意味ベクトルの獲得に関する研究も行った。教師なしの学習データとして大量な文章(または文)を用いる代わりに大規模なNグラムデータを用いることを提案し、その有効性を確認した。また、「見出し語とその説明」という構造が含まれない文書(非構造化文書)からの用語獲得の研究にも取り組んだ。具体的には、クエリと最も近い文書中の一部(パッセージ)を精度よく検索し、そのパッセージに含まれる語を用語候補とする方法に取り組んだ。非構造化文書の一例として音声ドキュメントを採用し、パッセージ検索に基づく擬似適合性フィードバックにおける関連語抽出技術を用語検索に応用して、その可能性を検討した。 上記研究成果は国際会議論文2編と国内会議論文3編を発表したほか、学術雑誌への論文投稿も行った。
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
本研究の参加者はたいへん意欲的に研究に取り組み、加えてPythonやC++などのプログラミング力も高かったため、計画以上に研究を進展させることができた。
|
Strategy for Future Research Activity |
初年度と次年度で用語検索の基本手法を確立することができた。今後は、研究計画に沿って、言い換えや意味処理を用いた同義語や表記ゆれといった表現の多様性問題への対応と、非構造化文書への検索対象の拡大などに取り組むとともに、提案研究の要素技術の研究も行う。また、これまでは分野限定の研究開発を行ってきているので、各分野の検索用語予測を統合する技術、つまり、ユーザの入力を特定の分野に分類する技術の開発も行う予定である。
|
Causes of Carryover |
購入したノートPCの実際価格が予定価格を下回ったため。
|
Expenditure Plan for Carryover Budget |
関連書籍の購入に使う予定
|