• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2011 Fiscal Year Research-status Report

自然言語処理における全体最適化のための大規模・超並列処理

Research Project

Project/Area Number 23700177
Research InstitutionNara Institute of Science and Technology

Principal Investigator

小町 守  奈良先端科学技術大学院大学, 情報科学研究科, 助教 (60581329)

Project Period (FY) 2011-04-28 – 2013-03-31
Keywords自然言語処理 / 知識獲得 / 情報抽出 / クエリマイニング / オークション / 単語クラスタリング
Research Abstract

本年度は研究目的の (1) に示した MapReduce による超大規模多クラス意味カテゴリ獲得の研究に従事した。具体的にはヤフー株式会社の協力を得て、Yahoo! オークションの検索クエリログおよび検索クリックスルーログを使用することができたため、Google N グラムを用いるという当初の計画を変更し、オークション検索クリックスルーログを用いた属性獲得の研究を行った。競合するカテゴリのパターンやインスタンスを用いた知識獲得の理論的分析は達成できなかったものの、オーバーラップするカテゴリを用いた属性抽出の実験を行ない、抽出されたインスタンスに関して考察を行った。研究目的 (1) の後半部分に関して、多クラス知識獲得の問題点の検討のため、オークション検索クエリログにおけるカテゴリによるクエリの性質の違いについて定性的・定量的に分析し、カテゴリによって性質が大きく異なることを調査した。また、ウェブ検索クエリとオークション検索クエリの性質の違いについて考察した。オークション検索クエリはナビゲーショナルなクエリが多いウェブ検索とは異なり、直接購入につながる検索クエリが多いということと、商品のカテゴリを選択してから検索するクエリが存在するため、多クラスである特徴を活かした分野適応手法が有効であることを示唆している。研究成果はH23年度後半に言語処理学会第18回年次大会にて発表し、SIGIR などの情報検索系の国際会議に投稿するため、原稿の執筆を行った。研究目的 (2) に関して、本年度は単語・句クラスタリングに関する調査を行った。日本語ウェブテキストに対して Brown Clustering を実行し、品詞の制約を用いることで精度よくクラス N-gram を作成し、得られたクラスを用いて単語 N-gram モデルの改善に取り組んだ。

Current Status of Research Progress
Current Status of Research Progress

3: Progress in research has been slightly delayed.

Reason

大規模多クラス知識獲得タスクに関しては、対象とするデータおよび従事する RA が異なったため、理論的背景の分析が中断しているものの、おおむね順調に進展している。しかし、単語・句クラスタリング手法を依存構造解析に適用するタスクに関しては、担当できる RA が不足したため、本年度中にサーベイと実装を完了して手法の改善を検討する、という当初の計画から、やや遅れが生じており、サーベイが完了するのみとなっている。

Strategy for Future Research Activity

大規模多クラス知識獲得タスクに関しては、研究計画書の通り進行する予定である。やや遅れが生じている依存構造解析に関しては、昨年度末に研究代表者の所属する研究室に新たに着任した Kevin Duh 氏と協力することで、並列処理の高速化と依存構造解析器の多言語化に着手したいと考えている。特に意味役割付与や共参照解析などの上位レイヤー、あるいは形態素解析やチャンキングなどの下位レイヤーとの結合学習に関して、並列分散処理による高速化や大規模化に取り組みたい。

Expenditure Plans for the Next FY Research Funding

未使用額が生じた要因は、研究の進捗状況に合わせ、予算執行計画を変更したことに伴うものである (本年度はリサーチ・アシスタントの謝金ではなく、旅費に使用した)。次年度は研究計画書の通り、本年度の進展が遅れている依存構造解析に関してリサーチ・アシスタントを依頼し、研究の速度を早めたい。

  • Research Products

    (3 results)

All 2012 2011

All Presentation (3 results)

  • [Presentation] オークション検索クリックスルーログからの属性値抽出2012

    • Author(s)
      水本智也, 坂口慶祐, 小町守, 内海慶, 河野洋志, 前澤敏之, 佐藤敏紀
    • Organizer
      言語処理学会第18回年次大会論文集, pp.1023-1026
    • Place of Presentation
      広島県広島市, 日本
    • Year and Date
      March 16, 2012
  • [Presentation] Japanese Abbreviation Expansion with Query and Clickthrough Logs2011

    • Author(s)
      Kei Uchiumi, Mamoru Komachi, Keigo Machinaga, Toshiyuki Maezawa, Toshinori Satou and Yoshinori Kobayashi
    • Organizer
      Proceedings of the 5th International Joint Conference on Natural Language Processing (IJCNLP), pp.410-419
    • Place of Presentation
      Chiang Mai, Thailand
    • Year and Date
      November 10, 2011
  • [Presentation] HITS-based Seed Selection and Stop List Construction for Bootstrapping2011

    • Author(s)
      Tetsuo Kiso, Masashi Shimbo, Mamoru Komachi and Yuji Matsumoto
    • Organizer
      Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics (ACL HLT 2011): Short Papers, pp.30-36
    • Place of Presentation
      Portland, USA
    • Year and Date
      June 21, 2011

URL: 

Published: 2013-07-10  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi