2006 Fiscal Year Annual Research Report
語構成を考慮した多言語の語彙および用語解析システムの研究開発
Project/Area Number |
18300051
|
Research Institution | Nara Institute of Science and Technology |
Principal Investigator |
松本 裕治 奈良先端科学技術大学院大学, 情報科学研究科, 教授 (10211575)
|
Co-Investigator(Kenkyū-buntansha) |
乾 健太郎 奈良先端科学技術大学院大学, 情報科学研究科, 助教授 (60272689)
浅原 正幸 奈良先端科学技術大学院大学, 情報科学研究科, 助手 (80379528)
橋本 喜代太 大阪府立大学, 人間社会学部, 助教授 (50278818)
|
Keywords | 自然言語処理 / 辞書 / 用語解析 / 形態素解析 / 語構成 / 多言語処理 / 複合語 / コロケーション |
Research Abstract |
次の3項目に分けて研究を実施した. (1)中国語および日本語の合成語の語構成の整理と分類:これまで作成してきた中国語と日本語の辞書に存在する合成語を中心に,語構成の分析と分類を行った.合成語を複合語と派生語に分類し、前者については、構成語間の文法関係についての分類を行なった。また、後者については派生接辞(拘束形態素)の分類を行なった。日本語辞書については、次の視点によって複合表現の分類を行い,辞書に登録すべき合成語の整理を行なった. (1)文法的振る舞い(例えば,品詞)が変化するもの. (2)全体の意味が構成語だけから予測できないもの. (3)読みが構成語の読みをつなげたものではなく音韻的変化を起こすもの. (4)専門用語など,それ自体で特定の意味をもつもの. (2)言語解析用辞書の語彙項目の拡充および各登録語の語構成記述:日本語形態素解析器「茶笙」で用いている辞書に含まれる複合語について,語構成の記述を網羅的に行った.また,大規模な未解析データにおける出現頻度を考慮して,未知語処理の解析精度を向上させる手法を考案し,辞書に不足する語を大規模な言語データから自動抽出する方法について検討した. (3)複合表現・専門用語の自動解析手法の開発:特定の分野に頻出する用語の抽出と意味分類について基礎的な手法の開発と実験を行った.インターネット上で構築が進んでいるWikipediaを対象とし、そのDOM構造を利用して,高い精度で用語の分類を行なう手法を提案した.
|