研究課題/領域番号 |
23700177
|
研究機関 | 奈良先端科学技術大学院大学 |
研究代表者 |
小町 守 奈良先端科学技術大学院大学, 情報科学研究科, 助教 (60581329)
|
研究期間 (年度) |
2011-04-28 – 2013-03-31
|
キーワード | 自然言語処理 / 知識獲得 / 情報抽出 / クエリマイニング / オークション / 単語クラスタリング |
研究概要 |
本年度は研究目的の (1) に示した MapReduce による超大規模多クラス意味カテゴリ獲得の研究に従事した。具体的にはヤフー株式会社の協力を得て、Yahoo! オークションの検索クエリログおよび検索クリックスルーログを使用することができたため、Google N グラムを用いるという当初の計画を変更し、オークション検索クリックスルーログを用いた属性獲得の研究を行った。競合するカテゴリのパターンやインスタンスを用いた知識獲得の理論的分析は達成できなかったものの、オーバーラップするカテゴリを用いた属性抽出の実験を行ない、抽出されたインスタンスに関して考察を行った。研究目的 (1) の後半部分に関して、多クラス知識獲得の問題点の検討のため、オークション検索クエリログにおけるカテゴリによるクエリの性質の違いについて定性的・定量的に分析し、カテゴリによって性質が大きく異なることを調査した。また、ウェブ検索クエリとオークション検索クエリの性質の違いについて考察した。オークション検索クエリはナビゲーショナルなクエリが多いウェブ検索とは異なり、直接購入につながる検索クエリが多いということと、商品のカテゴリを選択してから検索するクエリが存在するため、多クラスである特徴を活かした分野適応手法が有効であることを示唆している。研究成果はH23年度後半に言語処理学会第18回年次大会にて発表し、SIGIR などの情報検索系の国際会議に投稿するため、原稿の執筆を行った。研究目的 (2) に関して、本年度は単語・句クラスタリングに関する調査を行った。日本語ウェブテキストに対して Brown Clustering を実行し、品詞の制約を用いることで精度よくクラス N-gram を作成し、得られたクラスを用いて単語 N-gram モデルの改善に取り組んだ。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
大規模多クラス知識獲得タスクに関しては、対象とするデータおよび従事する RA が異なったため、理論的背景の分析が中断しているものの、おおむね順調に進展している。しかし、単語・句クラスタリング手法を依存構造解析に適用するタスクに関しては、担当できる RA が不足したため、本年度中にサーベイと実装を完了して手法の改善を検討する、という当初の計画から、やや遅れが生じており、サーベイが完了するのみとなっている。
|
今後の研究の推進方策 |
大規模多クラス知識獲得タスクに関しては、研究計画書の通り進行する予定である。やや遅れが生じている依存構造解析に関しては、昨年度末に研究代表者の所属する研究室に新たに着任した Kevin Duh 氏と協力することで、並列処理の高速化と依存構造解析器の多言語化に着手したいと考えている。特に意味役割付与や共参照解析などの上位レイヤー、あるいは形態素解析やチャンキングなどの下位レイヤーとの結合学習に関して、並列分散処理による高速化や大規模化に取り組みたい。
|
次年度の研究費の使用計画 |
未使用額が生じた要因は、研究の進捗状況に合わせ、予算執行計画を変更したことに伴うものである (本年度はリサーチ・アシスタントの謝金ではなく、旅費に使用した)。次年度は研究計画書の通り、本年度の進展が遅れている依存構造解析に関してリサーチ・アシスタントを依頼し、研究の速度を早めたい。
|