2004 Fiscal Year Annual Research Report

利用者からの要求を考慮したテキストデータからの知識抽出

Research Project

Project/Area Number	13131207
Research Institution	Nara Institute of Science and Technology
Principal Investigator	松本裕治奈良先端科学技術大学院大学, 情報科学研究科, 教授 (10211575)
Co-Investigator(Kenkyū-buntansha)	新保仁奈良先端科学技術大学院大学, 情報科学研究科, 助手 (90311589) 山田寛康北陸先端科学技術大学院大学, 情報科学研究科, 助手 (30345657)
Keywords	文書構造解析 / テキストマイニング / 情報抽出 / 言語解析 / 機械学習 / 特徴抽出
Research Abstract	肝炎検査項目に関する特徴記述の抽出:肝炎に関する論文概要の言語解析を行い,検査項目の記述に特徴的な表現の自動抽出実験を行なった.また,治療法あるいは治療薬の比較実験に関する論文概要から,比較対象,対象患者,効果に関する知識抽出に関する研究を行なった.前者については,検査項目を含む文の係り受け解析を行い,検査項目を主語または目的語に持つ述語表現をマイニングすることにより,検査項目の値や変化を表現する特徴表現の抽出を行なった.また,後者については,論文概要を対象に専門用語同定と意味クラス分類を行い,さらに各項目の知識抽出のためのパターンを記述することによって,どの程度の精度で知識抽出が可能かの確認のための実験を行なった. 文構造属性に基づく文分類:文書分類には文書に含まれる単語の集合を属性とした分類を行なうが,文の役割分類のように文によって記述されるより深い意味を分類するタスクには単なる単語集合では不充分である.文の意味分類を行なうためには構造をもった言語表現を属性として用いる必要があるが,どの表現が分類に有効な属性となるかを判定することは容易ではない.本研究では,係り受け解析によって木構造として表現された文集合から,それらを個別の役割に分類するのに有効な構造をグラフマイニング手法とブースティングアルゴリズムを用いることにより,効率的に列挙する方法を提案し,実験により有効に機能することを示した. 文書構造解析のための教師なしデータの利用:昨年度までに、論文概要の文を5つの役割に自動分類する方法について、手法の提案と実験を行なった。しかし、昨年度までの方法では,事前に役割分類を行なった訓練データを作成する必要があった.本年度は,人手分類による少量の訓練データと大量の生データを利用し,部分教師付き学習アルゴリズムの一つであるTransductive SVM法を用いることにより、分類済みのデータだけによる学習よりも分類精度を向上できることを示した.

Research Products
(6 results)

All 2004

All Journal Article (6 results)

[Journal Article] 半構造化テキスト分類のためのブースティングアルゴリズム2004
- Author(s)
  工藤拓, 松本裕治
- Journal Title
  
  情報処理学会論文誌 45・9
  
  Pages: 2146-2156
[Journal Article] カーネル法を用いた言語解析における高速化手法2004
- Author(s)
  工藤拓, 松本裕治
- Journal Title
  
  情報処理学会論文誌 45・9
  
  Pages: 2177-2185
[Journal Article] Use of morphological analysis in protein name recognition2004
- Author(s)
  K.Yamamoto, T.Kudo, A.Konagaya, Y.Matsumoto
- Journal Title
  
  Journal of Biomedical Informatics 37・6
  
  Pages: 471-482
[Journal Article] A Boosting Algorithm for Classification of Semi-Structured Text2004
- Author(s)
  Taku Kudo, Yuji Matsumoto
- Journal Title
  
  Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing 10
  
  Pages: 301-308
[Journal Article] Finding cue expressions for knowledge extraction from scientific text2004
- Author(s)
  Masashi Shimbo, Sayaka Tamamori, Yuji Matsumoto
- Journal Title
  
  Proceedings of the 2004 Pacific Knowledge Acquisition Workshop
  
  Pages: 1-13
[Journal Article] Application of kernels to link analysis : first results2004
- Author(s)
  Takahiko Ito, Masashi Shimbo, Yuji Matsumoto
- Journal Title
  
  Proceedings of the Second Workshop on Mining Graphs, Trees and Sequences 2
  
  Pages: 13-24

2004 Fiscal Year Annual Research Report

利用者からの要求を考慮したテキストデータからの知識抽出

Principal Investigator

松本 裕治 奈良先端科学技術大学院大学, 情報科学研究科, 教授 (10211575)

Research Products

[Journal Article] 半構造化テキスト分類のためのブースティングアルゴリズム2004

Author(s)

Journal Title

[Journal Article] カーネル法を用いた言語解析における高速化手法2004

Author(s)

Journal Title

[Journal Article] Use of morphological analysis in protein name recognition2004

Author(s)

Journal Title

[Journal Article] A Boosting Algorithm for Classification of Semi-Structured Text2004

Author(s)

Journal Title

[Journal Article] Finding cue expressions for knowledge extraction from scientific text2004

Author(s)

Journal Title

[Journal Article] Application of kernels to link analysis : first results2004

Author(s)

Journal Title

松本裕治奈良先端科学技術大学院大学, 情報科学研究科, 教授 (10211575)