1998 Fiscal Year Annual Research Report
統計モデルに基づく大規模テキストへの言語情報付与及びテキストからの言語知識獲得
Project/Area Number |
09780338
|
Research Institution | Nara Institute of Science and Technology |
Principal Investigator |
宇津呂 武仁 奈良先端科学技術大学院大学, 情報科学研究科, 助手 (90263433)
|
Keywords | 自然言語処理 / コーパス / 統計モデル / 言語情報付与 / 言語知識獲得 / 確率モデル学習 / 動詞の語彙知識 / 統計的係り受け解析 |
Research Abstract |
本研究では,大量のテキストデータに対して豊富な言語情報を効率よく付与するという手法の研究を行った.さらに,豊富な言語情報が付与されたテキストから,様々な言語現象に関する知識を獲得する手法について研究をおこなった.本年度の研究項目は次の2点である. 1. 豊富な言語情報が付与されたテキストから,様々な言語現象に関する知識を獲得する際に,それぞれの言語現象の特性に応じて,最適な言語知識獲得手法を適用し,言語知識獲得を行う. 2. 獲得された大規模言語知識が,実際の言語処理の性能向上にどの程度寄与するかを理論的・実験的に評価・検証する. まず,第1点については,言語知識獲得に適用可能な代表的手法として,確率モデル学習および機械学習の二種類の手法に着目し,それぞれの言語知識の獲得に最適な手法について研究を行った.具体的には,確率モデル学習の手法が適した例題として,(1)日本語形態素解析,(2)統語解析のための動詞語彙知識の学習,の二つについて,モデルを記述する言語情報の記述の細かさを徐々に調整しながら,なるべく解析誤りを少なくする方向にモデルを自動改良していく手法を開発した.また,機械学習の手法が適した例題として,(3)日本語従属節の係り受け関係の解析,について,従属節の様々な特徴のうち,従属節間の係り受け関係の特定に最も寄与する特徴を選択的に学習することに成功した. 第2点については,まず,(2)の統語解析のための動詞語彙知識の学習において,統語的曖昧性の解消の性能に関して,幾つかの対照モデルと比較して,確率モデル学習の手法により構築された最適モデルが最も優れでいることを示した.また,(3)の日本語従属節の係り受け関係の解析において,獲得された言語知識を用いてあらかじめ従属節間の係り受け関係を特定しておくことにより,文全体の係り受け解析の性能が向上することを示した.
|
Research Products
(7 results)
-
[Publications] 北内啓: "誤り駆動型の確率モデル学習による日本語形態素解析" 情報処理学会研究報告. 98-NL-124. 41-48 (1998)
-
[Publications] 中塚 幸毅: "コーパスからの格フレーム半自動獲得のための支援環境の構築" 言語処理学会第4回年次大会論文集. 442-445 (1998)
-
[Publications] Takehito Utsuro: "Lexical Knowledge Acquisition from Corpora" Proceedings of JSPS-HITACHI Workshop on New Challenges in Natural Language Processing and its Application,-Integration of Linguistics-based and Corpus-based Approaches-. 82-87 (1998)
-
[Publications] 西岡山 滋之: "コーパスからの日本語従属節係り受け選好情報の抽出" 情報処理学会研究報告. 98-NL-126. 31-38 (1998)
-
[Publications] Takehito Utsuro: "General-to-specific Model Selection for Subcategorization Preference" Proceedings of the 17th International Conference on Computational Linguistics and the 36th Annual Meeting of the Association for Computational Linguistics. 1314-1320 (1998)
-
[Publications] 宇津呂 武仁: "コーパスからの日本語従属節係り受け選好情報の抽出および文係り受け解析における評価" 言語処理学会第5回年次大会併設ワークショップ「構文解析-現状の分析と今後の展望-」. (1999)
-
[Publications] 北内 啓: "誤り駆動型の素性選択による日本語形態素解析の確率モデル学習" 情報処理学会論文誌. 40. (1999)