2004 Fiscal Year Annual Research Report
利用者からの要求を考慮したテキストデータからの知識抽出
Project/Area Number |
13131207
|
Research Institution | Nara Institute of Science and Technology |
Principal Investigator |
松本 裕治 奈良先端科学技術大学院大学, 情報科学研究科, 教授 (10211575)
|
Co-Investigator(Kenkyū-buntansha) |
新保 仁 奈良先端科学技術大学院大学, 情報科学研究科, 助手 (90311589)
山田 寛康 北陸先端科学技術大学院大学, 情報科学研究科, 助手 (30345657)
|
Keywords | 文書構造解析 / テキストマイニング / 情報抽出 / 言語解析 / 機械学習 / 特徴抽出 |
Research Abstract |
肝炎検査項目に関する特徴記述の抽出:肝炎に関する論文概要の言語解析を行い,検査項目の記述に特徴的な表現の自動抽出実験を行なった.また,治療法あるいは治療薬の比較実験に関する論文概要から,比較対象,対象患者,効果に関する知識抽出に関する研究を行なった.前者については,検査項目を含む文の係り受け解析を行い,検査項目を主語または目的語に持つ述語表現をマイニングすることにより,検査項目の値や変化を表現する特徴表現の抽出を行なった.また,後者については,論文概要を対象に専門用語同定と意味クラス分類を行い,さらに各項目の知識抽出のためのパターンを記述することによって,どの程度の精度で知識抽出が可能かの確認のための実験を行なった. 文構造属性に基づく文分類:文書分類には文書に含まれる単語の集合を属性とした分類を行なうが,文の役割分類のように文によって記述されるより深い意味を分類するタスクには単なる単語集合では不充分である.文の意味分類を行なうためには構造をもった言語表現を属性として用いる必要があるが,どの表現が分類に有効な属性となるかを判定することは容易ではない.本研究では,係り受け解析によって木構造として表現された文集合から,それらを個別の役割に分類するのに有効な構造をグラフマイニング手法とブースティングアルゴリズムを用いることにより,効率的に列挙する方法を提案し,実験により有効に機能することを示した. 文書構造解析のための教師なしデータの利用:昨年度までに、論文概要の文を5つの役割に自動分類する方法について、手法の提案と実験を行なった。しかし、昨年度までの方法では,事前に役割分類を行なった訓練データを作成する必要があった.本年度は,人手分類による少量の訓練データと大量の生データを利用し,部分教師付き学習アルゴリズムの一つであるTransductive SVM法を用いることにより、分類済みのデータだけによる学習よりも分類精度を向上できることを示した.
|
Research Products
(6 results)