本年度も研究目的の (1) に示した超大規模多クラス意味カテゴリ獲得の研究を継続した。具体的には Basilisk (Thelen and Riloff 2002) を実装し、Pennacchiotti and Pantel (2009) の実験設定に従い、Wikipedia 英語版のデータを用いて競合するカテゴリのパターンやインスタンスを用いた知識獲得の評価を行なった。実験の結果、複数のクラスからの意味カテゴリ獲得を同時に (排他的に) 行なうことによって、個々のクラスの意味カテゴリ獲得性能が向上することが示された。また、理論的分析としては Wei Liu and Shih-Fu Chang. Robust Multi-Class Transductive Learning with Graphs. CVPR 09. と同様の分析が可能であることが分かった。 また、研究目的 (2) に関して、本年度は単語クラスタリングに関する調査を継続した。英語テキストに対して Brown Clustering を実行し、動詞と係り受け関係にある名詞に対するクラスを用いた教師あり学習によって、英語の動詞誤り検出・訂正タスクにおけるデータスパースネスの問題の解消に取り組んだ。研究成果は言語処理学会年次大会で発表するとともに、査読あり国際会議に投稿した。また、GPGPU を活用した自然言語処理の一分野として深層学習 (deep learning) について調査した。
|