研究概要 |
医学/生物学分野の論文に含まれる様々な知識を,各利用者の要求に応じて抽出するために,技術論文中の自然言語文の自動解析,および,論文概要の文書構造の研究を行った.前者の文解析については,新しい分野のテキストに対する柔軟な言語解析を実現するため,文中に現れる未知語および固有名詞や数値表現などのいわゆる固有表現の同定を行う手法を提案した.また,英語の統語解析を行うため,文中の単語間の係り受け解析を事例からの学習によって行う手法を提案し,高い解析精度を実現するシステムを実装した.それぞれの手法にはサポートベクターマシンに基づく機械学習手法を適用した.前者の手法では,特に日本語等では単語の区切りを表す空白を文中に挿入することがないため,未知語や固有表現を正しく切り出すことが難しい.そこで,従来の単語に基づく手法ではなく,文字単位の切り出しを行う手法を提案し,柔軟で精度の高い結果が得られることを示した. 一方,文書構造解析については,Medline abstractの論文概要を対象に,概要中の各文の役割を「背景」「目的」「方法」「結果」「結論」などに分類し,自動的に役割同定を行う方法を提案した.Medline abstractには,構造かアブストラクトといって,上記のような役割が明示されたものが一部存在する.それらを学習データとして用い,機械学習手法を用いて,概要中の各文の役割を同定する実験を行い,有効性を確認した.これを利用して,概要中の文の役割を利用者が指定することのできる論文概要検索システムを試作した.
|