2008 Fiscal Year Annual Research Report
語構成を考慮した多言語の語彙および用語解析システムの研究開発
Project/Area Number |
18300051
|
Research Institution | Nara Institute of Science and Technology |
Principal Investigator |
松本 裕治 Nara Institute of Science and Technology, 情報科学研究科, 教授 (10211575)
|
Co-Investigator(Kenkyū-buntansha) |
乾 健太郎 奈良先端科学技術大学院大学, 情報科学研究科, 准教授 (60272689)
浅原 正幸 奈良先端科学技術大学院大学, 情報科学研究科, 助教 (80379528)
橋本 喜代太 大阪府立大学, 人間社会学部, 准教授 (50278818)
|
Keywords | 複合語解析 / 辞書システム / 自然言語処理 / 未知語解析 / 多言語処理 / 形態素解析 |
Research Abstract |
日本語および中国語の複合語の語構成分類を統語および意味関係に基づいて行い,内部構造情報の記述法を考案した.また,複合語の内部構造記述を行うためのインタフェースと検索機能を備えた辞書管理システムを開発した.今年度行った具体的な研究開発事項は以下の通りである. (1)統語および意味分類にもとづく複合語の構造の分析と複合語内部構造記述法の設定:複合語を構成する構成語間の統語および意味関係に基づく分類を行った.特に,日本語専門用語については,文字単位による係り受けによって,縮退を伴う複合現象の記述が可能なタグ付け手法を提案した. (2)言語解析用辞書の語彙項目の拡充と語構成記述の表示機能をもったユーザインタフェースの開発:綴り,読み,品詞,構成語など複合語のもつ種々の情報を指定して,任意の語を検索し,内部構造表示する検索機能,および,複合語の内部構造タグ付け支援機能を有した辞書システムを構築した. (3)専門用語および固有表現の自動抽出手法の開発:Wikipediaからの固有表現の自動抽出,および,専門分野の文書からの用語抽出と自動分類に関する研究を行った. (4)複合語・専門用語の自動解析手法:複合語の内部構造の自動解析を行うために,機械学習に基づく解析手法を開発した.また,機械学習の訓練およびテストデータとして用いるため,日本語および中国語それぞれ約800語の複合語・専門用語の内部構造タグ付けを行った.
|