研究課題/領域番号 |
18300051
|
研究機関 | 奈良先端科学技術大学院大学 |
研究代表者 |
松本 裕治 奈良先端科学技術大学院大学, 情報科学研究科, 教授 (10211575)
|
研究分担者 |
乾 健太郎 奈良先端科学技術大学院大学, 情報科学研究科, 准教授 (60272689)
浅原 正幸 奈良先端科学技術大学院大学, 情報科学研究科, 助教 (80379528)
橋本 喜代太 大阪府立大学, 人間社会学部, 准教授 (50278818)
|
キーワード | 自然言語処理 / 辞書 / 用語解析 / 形態素解析 / 語構成 / 多言語処理 / 複合語 / コロケーション |
研究概要 |
次の3項目に分けて研究を実施した. (1)中国語および日本語の合成語の語構成の整理と分類:中国語と日本語の合成語を複合語と派生語に分類し、語構成に関する分類を行なった。特に、中国語の3文字からなる合成語について、構造の記述を網羅的に行い、自動分類に関する実験を行った。 (2)言語解析用辞書の語彙項目の拡充:形態素解析器「茶筌」用の辞書の拡張を目指して、大規模テキストからの未知語の自動抽出に関する検討を行った。また、中国語と日本語の新規の複合語の抽出と登録を行った。中国語について、合討約13万語の辞書を構築した。 (3)複合表現・専門用語の自動解析手法の開発:特定の分野に頻出する用語の抽出と意味分類を目指し、Web上の大規模なデータからの自動抽出に関する研究を行った.特に、インターネット上で構築が進んでいるWikipediaを対象とし、そのDOM構造を利用して,用語の意味分類を行なう手法を提案し、固有表現辞書の自動構築を行った。
|