Research Abstract |
特許と論文を対象にした技術動向分析支援システムの構築を行った.一般に,特許や論文などの表題や概要中には,「Aを用いた」や「Bに基づく」などの表現が含まれている.このAやBは,ある技術を実現するための要素技術を示す用語であることが一般には多い.一方,表題中の末尾周辺の名詞句は,その論文のテーマ(主題)を示していることが多い.そこで,特許や論文の表題や概要を解析して要素技術と主題を抽出し,同一の主題を持つ特許と論文から抽出された要素技術を縦軸に,各文献の著作年を横軸にとって表示することにより,その主題を中心とした要素技術の変遷を知ることができる.さらに,「エラー率が低減」や「処理速度が向上」などの効果に関する表現もあわせて提示できれば,特定分野の技術動向を効率的に把握することができる. 一般に,論文および特許概要中の「を用いた」といった表現の直前には要素技術を表す用語が出現する傾向にある.また,「信頼性」や「精度」のように効果の属性になりやすい用語や,「向上」や「改善」のように効果の属性値になりやすい用語も存在する.これらの用語をあらかじめリストとしてまとめておき,概要中の各単語がリストに含まれるか否かを機械学習の素性として用いることにより,論文や特許から要素技術や効果に関する表現を抽出することが可能となる.ここで,要素技術に関する手掛かり表現は分野依存性がそれほどなく,手掛かり語の数もそれほど多くない.一方,属性や属性値になりやすい用語を様々な分野の論文や特許を対象に人手で網羅的に収集するのは容易ではない.そこで,表層的言語パターンと分布類似度を用いた効率的な手掛かり表現収集法を考案した.提案手法の有効性を調べるために行った実験の結果,論文の概要構造解析では,0.217の再現率,0.595の精度が,特許の概要構造解析では,0.373の再現率,0.584の精度が得られた.
|