機械学習を用いた頑健な自然言語処理

Research Project

Project/Area Number	02J03443
Research Category	Grant-in-Aid for JSPS Fellows
Allocation Type	Single-year Grants
Section	国内
Research Field	知能情報学
Research Institution	Nara Institute of Science and Technology
Principal Investigator	工藤拓奈良先端科学技術大学院大学, 情報科学研究科, 特別研究員(DC2)
Project Period (FY)	2002 – 2003
Project Status	Completed (Fiscal Year 2003)
Budget Amount *help	¥2,000,000 (Direct Cost: ¥2,000,000) Fiscal Year 2003: ¥1,000,000 (Direct Cost: ¥1,000,000) Fiscal Year 2002: ¥1,000,000 (Direct Cost: ¥1,000,000)
Keywords	Support Vector Machines / Boosting / 半構造化テキスト / テキスト分類 / Support Vector Machine / 係り受け解析 / テキストチャンキング / テキストマイニング
Research Abstract	1.半構造化文書分類のためのブースティングアルゴリズム近年,テキスト分類は,単純なトピック分類から,文のモダリティ,意見性,主観性といった書き手の意図に基づく分類へと,そのタスクの多様化が進んでいる. それに伴い,単語の集合(bag-of-words)を素性とする古典的手法では十分な精度を得にくくなっている.精度向上には,テキストの構造(構文/レイアウト)を考慮する必要があるが,恣意的に選択された部分構造のみを用いた手法が多い. 本稿では,構造を考慮したテキスト分類(半構造化テキスト分類)に向け,部分木を素性とするdecision stumpsと,それを弱学習器とするBoostingアルゴリズムを提案した.また,Tree Kernelを用いたSVMとの関連性,及び本手法の利点について調査した. 実データを用いた実験により,提案手法の有効性を検証した. 2.SVMの高速分類手法の提案と言語処理への適用近年,Support Vector Machineを中心とするカーネル法が注目され,自然言語処理においても良い結果を示している. カーネル法により,これまで巧妙に選択する必要があった「組み合わせ素性」を一般性や計算量を落とすことなく取り入れることができる. しかしカーネルを用いた場合には,素性の組み合わせは陰に展開されるため,有効な素性の分析が難しく,さらに,解析時の計算量が大きくなる問題がある. そこで,頻出部分集合列挙アルゴリズムを用いて,サポートベクターの集合から有効な素性の組み合わせを発見し,単純な線形分類器に変換することで,解析の速度向上を試みた.英語名詞句同定,日本語わかち書き,及び,日本語係り受け解析における実験では,カーネルを用いた通常の解析器に比べ,約30-300倍の速度向上に成功した.

Report

(2 results)

2003 Annual Research Report
2002 Annual Research Report

Research Products

(7 results)

All Other

All Publications (7 results)

[Publications] 工藤拓, 松本裕治: "半構造化テキストの分類のためのブースティングアルゴリズム"情報処理学会知能と複雑系研究会SIG-ICS. 135. 163-168 (2004)
- Related Report
  2003 Annual Research Report
[Publications] 工藤拓, 松本裕治: "部分木を素性とするDecision StumpsとBoosting Algorithmの適用"情報処理学会自然言語処理研究会SIG-NL. 158. 55-63 (2003)
- Related Report
  2003 Annual Research Report
[Publications] 工藤拓, 松本裕治: "部分木に基づくマルコフ確率場と言語解析への適用"情報処理学会自然言語処理研究会SIG-NL. 157. 33-41 (2003)
- Related Report
  2003 Annual Research Report
[Publications] Taku Kudo, Yuji Matsumoto: "Fast Methods for Kernel-based Text Analysis"Annual Meeting of Association for Computational Linguistics. 41. 24-31 (2003)
- Related Report
  2003 Annual Research Report
[Publications] 工藤拓, 松本裕治: "チャンキングの段階適用による係り受け解析, 情報処理学会論文誌"情報処理学会論文誌. 43,6. 1834-1842 (2002)
- Related Report
  2002 Annual Research Report
[Publications] 工藤拓, 松本裕治: "Support Vector Machineを用いたChunk同定"自然言語処理. 9,5. 43-53 (2002)
- Related Report
  2002 Annual Research Report
[Publications] Taku Kudo, Yuji Matsumoto: "Japanese Dependency Analysis using Cascaded Chunking"Computational Natural Language Learning(CoNLL)2003. 63-69 (2002)
- Related Report
  2002 Annual Research Report

機械学習を用いた頑健な自然言語処理

Principal Investigator

工藤 拓 奈良先端科学技術大学院大学, 情報科学研究科, 特別研究員(DC2)

¥2,000,000 (Direct Cost: ¥2,000,000)

Report

Research Products

[Publications] 工藤 拓, 松本 裕治: "半構造化テキストの分類のためのブースティングアルゴリズム"情報処理学会知能と複雑系研究会SIG-ICS. 135. 163-168 (2004)

Related Report

[Publications] 工藤 拓, 松本 裕治: "部分木を素性とするDecision StumpsとBoosting Algorithmの適用"情報処理学会自然言語処理研究会SIG-NL. 158. 55-63 (2003)

Related Report

[Publications] 工藤 拓, 松本 裕治: "部分木に基づくマルコフ確率場と言語解析への適用"情報処理学会自然言語処理研究会SIG-NL. 157. 33-41 (2003)

Related Report

[Publications] Taku Kudo, Yuji Matsumoto: "Fast Methods for Kernel-based Text Analysis"Annual Meeting of Association for Computational Linguistics. 41. 24-31 (2003)

Related Report

[Publications] 工藤 拓, 松本 裕治: "チャンキングの段階適用による係り受け解析, 情報処理学会論文誌"情報処理学会論文誌. 43,6. 1834-1842 (2002)

Related Report

[Publications] 工藤 拓, 松本 裕治: "Support Vector Machineを用いたChunk同定"自然言語処理. 9,5. 43-53 (2002)

Related Report

[Publications] Taku Kudo, Yuji Matsumoto: "Japanese Dependency Analysis using Cascaded Chunking"Computational Natural Language Learning(CoNLL)2003. 63-69 (2002)

Related Report

工藤拓奈良先端科学技術大学院大学, 情報科学研究科, 特別研究員(DC2)

[Publications] 工藤拓, 松本裕治: "半構造化テキストの分類のためのブースティングアルゴリズム"情報処理学会知能と複雑系研究会SIG-ICS. 135. 163-168 (2004)

[Publications] 工藤拓, 松本裕治: "部分木を素性とするDecision StumpsとBoosting Algorithmの適用"情報処理学会自然言語処理研究会SIG-NL. 158. 55-63 (2003)

[Publications] 工藤拓, 松本裕治: "部分木に基づくマルコフ確率場と言語解析への適用"情報処理学会自然言語処理研究会SIG-NL. 157. 33-41 (2003)

[Publications] 工藤拓, 松本裕治: "チャンキングの段階適用による係り受け解析, 情報処理学会論文誌"情報処理学会論文誌. 43,6. 1834-1842 (2002)

[Publications] 工藤拓, 松本裕治: "Support Vector Machineを用いたChunk同定"自然言語処理. 9,5. 43-53 (2002)