研究課題/領域番号 |
25330368
|
研究種目 |
基盤研究(C)
|
研究機関 | 龍谷大学 |
研究代表者 |
馬 青 龍谷大学, 理工学部, 教授 (30358882)
|
研究分担者 |
吉見 毅彦 龍谷大学, 理工学部, 准教授 (50368031)
南條 浩輝 龍谷大学, 理工学部, 助教 (50388162)
|
研究期間 (年度) |
2013-04-01 – 2017-03-31
|
キーワード | 深層学習 / Deep Learning / DBN / SdA / 用語予測 / 検索支援 / 関連語 / 周辺語 |
研究概要 |
Web検索において検索用語がわからないことに不満を感じる人は57.6%に上る。提案研究はこのような不満を軽減し、快適な検索ができるように検索用語をその説明文または関連語・周辺語を用いて獲得する手法の研究開発を目的としている。 初年度では、研究実施計画に沿って研究を進め、以下のような成果が得られた。まず、提案研究関連の要素技術の研究を進める一方、提案研究に関する関連研究及び技術に対する各種のサーベイを行った。その結果、自然言語処理の検索技術を用いた辞書逆引き的に検索用語を取得する汎用的な手法を研究開発するよりも、機械学習の技術を駆使して分野限定の高性能検索用語予測システムを目指したほうが学術的にも実用的にも望ましい結論に至った。一方、近年、機械学習の新手法としてDeep Learning(深層学習)がパターン認識をはじめ各分野のコンペティションで優勝し、Big Dataと肩を並べるほど話題になっているにもかかわらず日本語に関しては自然言語処理の分野ではほとんどまだ使われていないのが現状でありこの分野での実力が未知数である。このような背景の下でDeep Learningを用いた日本語単語の多義性解消と関連語・周辺語からの検索用語の予測に関する研究を精力的に行い、まだ小規模ではあるが、コンピュータ用語について、その関連語・周辺語から高い精度で予測する手法の開発に成功した。また、SVMなどこれまで言語処理の分野で重宝されてきた機械学習手法との比較実験を通じて深層学習の言語処理分野における有効性も確認できた。さらに、検索用語の予測精度の向上に不可欠な学習データの自動獲得についても実用的な知見が得られた。 上記研究成果は学術雑誌論文(関連要素技術)1編と今年3月に行われた言語処理の全国大会で2編の論文(検索語予測)として発表したほか、難関国際会議と学術雑誌への論文投稿準備を進めている。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
本研究に参加予定の学生は深層学習はもとより機械学習に関する知識、スキルはほとんど持ち合わせていなかった。そのため、研究のペースはもっと遅いだろうと予想していた。しかし実際は今回の学生たちはたいへん意欲的に研究に取り組み、加えてPythonやC++などのプログラミング力も高かったため、予想よりも研究を大きく進展させることができた。
|
今後の研究の推進方策 |
初年度では一定の研究成果を得ることができたが、実験に用いたデータは(学習データも評価データも)まだ小規模であった。今後の研究の推進方策として、まず、深層学習の最大な特徴は準備が相対的に簡単な教師なし学習データで特徴抽出を行える点にあることから、深層学習の性能を最大限に引き出すためには教師なし学習データを大幅に増やして学習を行うことが考えられる。次に、深層学習の真の有効性を確認するために大規模な正解付の評価データを構築して評価を行う。最後に、分野限定のシステムの開発を行っているので、各分野の検索用語予測システムを統合する技術、つまり、ユーザの入力を特定の分野に分類する技術の開発を行う。
|
次年度の研究費の使用計画 |
当初の予想より研究が進んでおり、次年度にも大規模な実験に着手できる状況になった。そのために高速処理のできるGPUなどを前倒しに次年度で購入する必要がある。また、研究成果の発信も増えることが予測されている。そのために、前年度の経費をできるだけ節約して次年度に回す必要があった。 上記の理由により、前年度の積み残し経費を大規模実験に必要な高速処理のできるGPUなどの購入に充てる予定である。
|