2006 Fiscal Year Annual Research Report

語構成を考慮した多言語の語彙および用語解析システムの研究開発

Research Project

Project/Area Number	18300051
Research Institution	Nara Institute of Science and Technology
Principal Investigator	松本裕治奈良先端科学技術大学院大学, 情報科学研究科, 教授 (10211575)
Co-Investigator(Kenkyū-buntansha)	乾健太郎奈良先端科学技術大学院大学, 情報科学研究科, 助教授 (60272689) 浅原正幸奈良先端科学技術大学院大学, 情報科学研究科, 助手 (80379528) 橋本喜代太大阪府立大学, 人間社会学部, 助教授 (50278818)
Keywords	自然言語処理 / 辞書 / 用語解析 / 形態素解析 / 語構成 / 多言語処理 / 複合語 / コロケーション
Research Abstract	次の3項目に分けて研究を実施した. (1)中国語および日本語の合成語の語構成の整理と分類:これまで作成してきた中国語と日本語の辞書に存在する合成語を中心に,語構成の分析と分類を行った.合成語を複合語と派生語に分類し、前者については、構成語間の文法関係についての分類を行なった。また、後者については派生接辞(拘束形態素)の分類を行なった。日本語辞書については、次の視点によって複合表現の分類を行い,辞書に登録すべき合成語の整理を行なった. (1)文法的振る舞い(例えば,品詞)が変化するもの. (2)全体の意味が構成語だけから予測できないもの. (3)読みが構成語の読みをつなげたものではなく音韻的変化を起こすもの. (4)専門用語など,それ自体で特定の意味をもつもの. (2)言語解析用辞書の語彙項目の拡充および各登録語の語構成記述:日本語形態素解析器「茶笙」で用いている辞書に含まれる複合語について,語構成の記述を網羅的に行った.また,大規模な未解析データにおける出現頻度を考慮して,未知語処理の解析精度を向上させる手法を考案し,辞書に不足する語を大規模な言語データから自動抽出する方法について検討した. (3)複合表現・専門用語の自動解析手法の開発:特定の分野に頻出する用語の抽出と意味分類について基礎的な手法の開発と実験を行った.インターネット上で構築が進んでいるWikipediaを対象とし、そのDOM構造を利用して,高い精度で用語の分類を行なう手法を提案した.

Research Products
(4 results)

All 2006

All Journal Article (4 results)

[Journal Article] Machine Learning-based Methods to Chinese Unknown Word Detection and POS Tag Guessing2006
- Author(s)
  Chooi-Ling Goh, Masayuki Asahara, Yuji Matsumoto
- Journal Title
  
  Journal of Chinese Language and Computing 16・4
  
  Pages: 85-206
[Journal Article] 言語資源を活用した実用的な対訳表現抽出2006
- Author(s)
  北村美穂子, 松本裕治
- Journal Title
  
  自然言語処理 13・1
  
  Pages: 3-25
[Journal Article] 動詞項構造辞書への大規模用例付与2006
- Author(s)
  平野徹, 飯田龍, 藤田篤, 乾健太郎, 松本裕治
- Journal Title
  
  自然言語処理 13・3
  
  Pages: 113-132
[Journal Article] The Construction of a Dictionary for a Two-layer Chinese Morphological Analyzer2006
- Author(s)
  Chooi-Ling Goh, Jia Lu, Yuchang Cheng, Masayuki Asahara, Yuji Matsumoto
- Journal Title
  
  Proceedings of the 20th Pacific Asia Conference on Language Information and Computation 20
  
  Pages: 332-340

2006 Fiscal Year Annual Research Report

語構成を考慮した多言語の語彙および用語解析システムの研究開発

Principal Investigator

松本 裕治 奈良先端科学技術大学院大学, 情報科学研究科, 教授 (10211575)

Research Products

[Journal Article] Machine Learning-based Methods to Chinese Unknown Word Detection and POS Tag Guessing2006

Author(s)

Journal Title

[Journal Article] 言語資源を活用した実用的な対訳表現抽出2006

Author(s)

Journal Title

[Journal Article] 動詞項構造辞書への大規模用例付与2006

Author(s)

Journal Title

[Journal Article] The Construction of a Dictionary for a Two-layer Chinese Morphological Analyzer2006

Author(s)

Journal Title

松本裕治奈良先端科学技術大学院大学, 情報科学研究科, 教授 (10211575)