研究概要 |
次の3項目に分けて研究を実施した. (1)中国語および日本語の合成語の語構成の整理と分類:これまで作成してきた中国語と日本語の辞書に存在する合成語を中心に,語構成の分析と分類を行った.合成語を複合語と派生語に分類し、前者については、構成語間の文法関係についての分類を行なった。また、後者については派生接辞(拘束形態素)の分類を行なった。日本語辞書については、次の視点によって複合表現の分類を行い,辞書に登録すべき合成語の整理を行なった. (1)文法的振る舞い(例えば,品詞)が変化するもの. (2)全体の意味が構成語だけから予測できないもの. (3)読みが構成語の読みをつなげたものではなく音韻的変化を起こすもの. (4)専門用語など,それ自体で特定の意味をもつもの. (2)言語解析用辞書の語彙項目の拡充および各登録語の語構成記述:日本語形態素解析器「茶笙」で用いている辞書に含まれる複合語について,語構成の記述を網羅的に行った.また,大規模な未解析データにおける出現頻度を考慮して,未知語処理の解析精度を向上させる手法を考案し,辞書に不足する語を大規模な言語データから自動抽出する方法について検討した. (3)複合表現・専門用語の自動解析手法の開発:特定の分野に頻出する用語の抽出と意味分類について基礎的な手法の開発と実験を行った.インターネット上で構築が進んでいるWikipediaを対象とし、そのDOM構造を利用して,高い精度で用語の分類を行なう手法を提案した.
|