2003 Fiscal Year Annual Research Report
Project/Area Number |
02J03443
|
Research Institution | Nara Institute of Science and Technology |
Principal Investigator |
工藤 拓 奈良先端科学技術大学院大学, 情報科学研究科, 特別研究員(DC2)
|
Keywords | Support Vector Machines / Boosting / 半構造化テキスト / テキスト分類 |
Research Abstract |
1.半構造化文書分類のためのブースティングアルゴリズム 近年,テキスト分類は,単純なトピック分類から,文のモダリティ,意見性,主観性といった書き手の意図に基づく分類へと,そのタスクの多様化が進んでいる. それに伴い,単語の集合(bag-of-words)を素性とする古典的手法では十分な精度を得にくくなっている.精度向上には,テキストの構造(構文/レイアウト)を考慮する必要があるが,恣意的に選択された部分構造のみを用いた手法が多い. 本稿では,構造を考慮したテキスト分類(半構造化テキスト分類)に向け,部分木を素性とするdecision stumpsと,それを弱学習器とするBoostingアルゴリズムを提案した.また,Tree Kernelを用いたSVMとの関連性,及び本手法の利点について調査した. 実データを用いた実験により,提案手法の有効性を検証した. 2.SVMの高速分類手法の提案と言語処理への適用 近年,Support Vector Machineを中心とするカーネル法が注目され,自然言語処理においても良い結果を示している. カーネル法により,これまで巧妙に選択する必要があった「組み合わせ素性」を一般性や計算量を落とすことなく取り入れることができる. しかしカーネルを用いた場合には,素性の組み合わせは陰に展開されるため,有効な素性の分析が難しく,さらに,解析時の計算量が大きくなる問題がある. そこで,頻出部分集合列挙アルゴリズムを用いて,サポートベクターの集合から有効な素性の組み合わせを発見し,単純な線形分類器に変換することで,解析の速度向上を試みた.英語名詞句同定,日本語わかち書き,及び,日本語係り受け解析における実験では,カーネルを用いた通常の解析器に比べ,約30-300倍の速度向上に成功した.
|
Research Products
(4 results)
-
[Publications] 工藤 拓, 松本 裕治: "半構造化テキストの分類のためのブースティングアルゴリズム"情報処理学会知能と複雑系研究会SIG-ICS. 135. 163-168 (2004)
-
[Publications] 工藤 拓, 松本 裕治: "部分木を素性とするDecision StumpsとBoosting Algorithmの適用"情報処理学会自然言語処理研究会SIG-NL. 158. 55-63 (2003)
-
[Publications] 工藤 拓, 松本 裕治: "部分木に基づくマルコフ確率場と言語解析への適用"情報処理学会自然言語処理研究会SIG-NL. 157. 33-41 (2003)
-
[Publications] Taku Kudo, Yuji Matsumoto: "Fast Methods for Kernel-based Text Analysis"Annual Meeting of Association for Computational Linguistics. 41. 24-31 (2003)