2001 Fiscal Year Annual Research Report
利用者からの要求を考慮したテキストデータからの知識抽出
Project/Area Number |
13131207
|
Research Category |
Grant-in-Aid for Scientific Research on Priority Areas (B)
|
Research Institution | Nara Institute of Science and Technology |
Principal Investigator |
松本 裕治 奈良先端科学技術大学院大学, 情報科学研究科, 教授 (10211575)
|
Keywords | 専門用語抽出 / 用語の意味クラス分類 / 機械学習 / サポートベクターマシン / 部分的言語解析 / 形態素解析 / 修正学習法 |
Research Abstract |
医学生物学分野の論文概要を対象に利用者が指定した視点に基づく検索を実現するための基礎的な研究を行った。研究項目として、本年度は、精度の高い部分的言語解析のための学習法に関する研究と、専門用語を抽出し、その意味クラスを自動判定する方法に関する研究を行った。 前者としては、修正学習法という手法を提案し、英語および日本語の形態素解析に適用することによって、従来の手法より高精度の解析が達成できることを示した。この方法は、品詞情報が付与されたテキストに対して、隠れマルコフモデルのような荒い学習手法を適用し、そのようなモデルで学習できないような複雑な現象部分に集中してサポートベクターマシンのような高次元空間での学習が可能な手法により2段階の学習を行うもので、荒い手法での誤りをより詳細な手法で修正するという考え方である。これにより、速度と精度のバランスのよい学習手法を提案することができた。この手法を形態素解析に適用し、特に、専門分野のテキストのように未知語が頻出する対象に対し、良好な結果を得た。また、句レベルや構文レベルの解析処理にサポートベクターマシンに基づく学習手法を適用し、表面的な言語解析を頑健かつ精度よく実現できることをしめした。これらの言語処理システムを利用し、医学生物学分野の論文概要を対象に専門用語の抽出とその用語がどのような概念を表すか意味クラスを推定する手法を検討し、実験によりその有効性を示した。
|
-
[Publications] 山田寛康, 工藤拓, 松本裕治: "Support Vector Machineを用いた日本語固有表現抽出"情報処理学会論文誌. 43・1. 44-53 (2002)
-
[Publications] Hiroya Takamura, Yuji Matsumoto: "Feature Space Restructuring for SVMs with Application to Text Categorization"Proceedings of 2001 Conference on Empirical Methods in Natural Language Processing. 6. 51-57 (2001)
-
[Publications] Taku Kudo, Yuji Matsumoto: "Chunking with Support Vector Machines"Proceedings of the Second Meeting of North American Chapter of Association for Computational Linguistics. 2. 192-199 (2001)
-
[Publications] 松本裕治, 山田寛康, 新保仁: "学習に基づく専門用語分類"人工知能学会,人工知能基礎論研究会,知識ベースシステム研究会合同研究会. SIG-FAI/K BS-J-13. 79-84 (2001)
-
[Publications] 中川哲治, 工藤拓, 松本裕治: "修正学習法による形態素解析"情報処理学会研究報告. NL-146. 1-8 (2001)
-
[Publications] 工藤拓, 山本薫, 坪井祐太, 松本裕治: "言語情報を利用したテキストマイニング"情報処理学会研究報告. NL-148. 65-72 (2002)