2007 Fiscal Year Annual Research Report
専門分野テキストコーパスからの体系化された用語抽出
Project/Area Number |
19500135
|
Research Institution | National Institute of Informatics |
Principal Investigator |
小山 照夫 National Institute of Informatics, 情報社会相関研究系, 教授 (80124410)
|
Co-Investigator(Kenkyū-buntansha) |
竹内 孔一 岡山大学, 大学院・自然科学研究科, 講師 (80311174)
|
Keywords | 用語抽出 / 用語体系化 / 複合語構造解析 / 部分研究領域同定 / 用語分類 / 語彙概念構造 |
Research Abstract |
本年度は主として情報処理分野の論文抄録コーパスを材料とした検討を行った。用語抽出精度に関して、とれまでに開発してきた手法が、この分野に対しても有効であり、高い精度で用語抽出が可能であることが明らかとなった。 抽出された用語候補の間の入れ子関係を調べることによって、用語の間の概念階層関係を、上位語-下位語関係や、関連語関係等に整理できることを明らかにした。また、複合語を構成する形態素の間の構造を整理し、複合語全体の表す概念を、要素となる形態素を用いた言い換えで記述する方法について、3形態素までの用語候補についても言い換えが可能であることを示した。 一方、文書に出現するサ変名詞を手がかりに、部分研究分野を同定する方法を適用した結果、情報処理という比較的狭い分野においても一定め部分分野同定が可能であることを確認した。さらに、比較的出現頻度の高い用語候補について、同定された部分分野に関連付けてある程度まで分類可能であることを明らかにした。 複合語の構造解析のためには、要素となる各形態素がどのような動詞概念に対してどのような項関係を取り得るかに関するデータを整備することが重要である。本年度は構造解析のための基礎データとして、サ変名詞をHeadとする複合語約3,500について、サ変名詞を語彙概念構造(LCS)に分類するとともに、修飾要素が項関係にあるかどうかを判定することを試みた。今後このデータを複合語構造解析に応用することを試みる予定である。
|
Research Products
(2 results)