Budget Amount *help |
¥2,000,000 (Direct Cost: ¥2,000,000)
Fiscal Year 2003: ¥1,000,000 (Direct Cost: ¥1,000,000)
Fiscal Year 2002: ¥1,000,000 (Direct Cost: ¥1,000,000)
|
Research Abstract |
1.半構造化文書分類のためのブースティングアルゴリズム 近年,テキスト分類は,単純なトピック分類から,文のモダリティ,意見性,主観性といった書き手の意図に基づく分類へと,そのタスクの多様化が進んでいる. それに伴い,単語の集合(bag-of-words)を素性とする古典的手法では十分な精度を得にくくなっている.精度向上には,テキストの構造(構文/レイアウト)を考慮する必要があるが,恣意的に選択された部分構造のみを用いた手法が多い. 本稿では,構造を考慮したテキスト分類(半構造化テキスト分類)に向け,部分木を素性とするdecision stumpsと,それを弱学習器とするBoostingアルゴリズムを提案した.また,Tree Kernelを用いたSVMとの関連性,及び本手法の利点について調査した. 実データを用いた実験により,提案手法の有効性を検証した. 2.SVMの高速分類手法の提案と言語処理への適用 近年,Support Vector Machineを中心とするカーネル法が注目され,自然言語処理においても良い結果を示している. カーネル法により,これまで巧妙に選択する必要があった「組み合わせ素性」を一般性や計算量を落とすことなく取り入れることができる. しかしカーネルを用いた場合には,素性の組み合わせは陰に展開されるため,有効な素性の分析が難しく,さらに,解析時の計算量が大きくなる問題がある. そこで,頻出部分集合列挙アルゴリズムを用いて,サポートベクターの集合から有効な素性の組み合わせを発見し,単純な線形分類器に変換することで,解析の速度向上を試みた.英語名詞句同定,日本語わかち書き,及び,日本語係り受け解析における実験では,カーネルを用いた通常の解析器に比べ,約30-300倍の速度向上に成功した.
|