2002 Fiscal Year Annual Research Report
利用者からの要求を考慮したテキストデータからの知識抽出
Project/Area Number |
13131207
|
Research Institution | Nara Institute of Science and Technology |
Principal Investigator |
松本 裕治 奈良先端科学技術大学院大学, 情報科学研究科, 教授 (10211575)
|
Co-Investigator(Kenkyū-buntansha) |
山田 寛康 北陸先端科学技術大学院大学, 情報科学研究科, 助手 (30345657)
新保 仁 奈良先端科学技術大学院大学, 情報科学研究科, 助手 (90311589)
|
Keywords | 知識抽出 / 文書解析 / 未知語の品詞推定 / 機械学習 / 係り受け解析 / 用語の意味クラス分類 / サポートベクターマシ |
Research Abstract |
医学・生物学分野の論文に含まれる様々な知識を、利用者の要求に応じて抽出することを目指して研究を行った。特に、Medline abstractの英文を解析するため、(1)未知語を含む英文文書内の単語の品詞推定、(2)文中の基本句の抽出と単語間の係り受け解析、(3)テキストからの専門用語の抽出と意味分類、(4)論文概要の文章構造解析、の4点について研究を行った。(1)では、未知語の前後の単語やその品詞、および、未知語自体の接尾表現を基本情報とし、新しく提案した機械学習アルゴリズムを適用することで、従来の研究より高い精度を得た。(2)では、品詞付与が行われた文に対して、単語間の統語的係り受け解析を行うシステムを事例からの学習に基づいて構築した。Support Vector Machineという分類学習アルゴリズムを英文中の単語の係り受けに適用する方法を提案し、係り受け精度で90%を越えるシステムを構築した。(3)では、Medline abstractに現れる病名や薬品名などの専門用語を抽出し、それらを自動的に意味分類する手法を提案した。前後の単語の情報だけでなく、用語に係る、あるいは、係られる単語の情報を利用し、それらの情報が用語の意味分類に有効に働くことを示した。(4)では、論文概要中の各文の役割を自動推定する研究を行った。論文概要には、研究の背景を述べる部分、新しい提案手法や結果を述べる部分、結論を述べる部分など、それぞれの文が異なる役割を持っている。文書からの知識抽出を考える際に、どのような役割を持った文から知識を抽出するかによって、その文で述べられている内容の価値が異なる。本研究では、文章構造が明示的にタグ付けされた論文概要を訓練データとして機械学習を行うことにより、未知の文の役割を推定する研究を行った。その際、単語の情報だけでなく、連続あるいは非連続の単語列の情報が、文の役割分類に有効であることを示した。
|
-
[Publications] 松本裕治: "自然言語処理におけるシステム混合法の利用"電子情報通信学会論文誌D-II. J85-D-II・5. 709-716 (2002)
-
[Publications] 工藤拓, 松本裕治: "チャンキングの段階適用による日本語係り受け解析"情報処理学会論文誌. 43・6. 1834-1842 (2002)
-
[Publications] 工藤拓, 松本裕治: "Support Vector Machineを用いたChunk同定"自然言語処理. 9・5. 3-22 (2002)
-
[Publications] Tetsuji Nakagawa, Taku Kudo, Yuji Matsumoto: "Revision Learning and its Application to Part-of-Speech Tagging"Proc. 40^<th> Annual Meeting of Association for Computational Linguistics. ACL02. 497-504 (2002)
-
[Publications] Masahi Shimbo, Hiroyasu Yamada, Yuji Matsumoto: "Using Syntactic Dependency Information for Classification of Technical Terms"Proceedings of the 2002 Pacific Rim Knowledge Acquisition Workshop. PKAW02. 131-143 (2002)
-
[Publications] 山田寛泰, 松本裕治: "Support Vector Machineを用いた決定性情報型構文解析"情報処理学会研究報告. 2002-NL-149. 57-64 (2002)