• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

統計モデルに基づく大規模テキストへの言語情報付与及びテキストからの言語知識獲得

Research Project

Project/Area Number 09780338
Research Category

Grant-in-Aid for Encouragement of Young Scientists (A)

Allocation TypeSingle-year Grants
Research Field Intelligent informatics
Research InstitutionNara Institute of Science and Technology

Principal Investigator

宇津呂 武仁  奈良先端科学技術大学院大学, 情報科学研究科, 助手 (90263433)

Project Period (FY) 1997 – 1998
Project Status Completed (Fiscal Year 1998)
Budget Amount *help
¥2,000,000 (Direct Cost: ¥2,000,000)
Fiscal Year 1998: ¥900,000 (Direct Cost: ¥900,000)
Fiscal Year 1997: ¥1,100,000 (Direct Cost: ¥1,100,000)
Keywords自然言語処理 / コーパス / 統計モデル / 言語情報付与 / 言語知識獲得 / 確率モデル学習 / 動詞の語彙知識 / 統計的係り受け解析 / 形態素解析モデル
Research Abstract

本研究では,大量のテキストデータに対して豊富な言語情報を効率よく付与するという手法の研究を行った.さらに,豊富な言語情報が付与されたテキストから,様々な言語現象に関する知識を獲得する手法について研究をおこなった.本年度の研究項目は次の2点である.
1. 豊富な言語情報が付与されたテキストから,様々な言語現象に関する知識を獲得する際に,それぞれの言語現象の特性に応じて,最適な言語知識獲得手法を適用し,言語知識獲得を行う.
2. 獲得された大規模言語知識が,実際の言語処理の性能向上にどの程度寄与するかを理論的・実験的に評価・検証する.
まず,第1点については,言語知識獲得に適用可能な代表的手法として,確率モデル学習および機械学習の二種類の手法に着目し,それぞれの言語知識の獲得に最適な手法について研究を行った.具体的には,確率モデル学習の手法が適した例題として,(1)日本語形態素解析,(2)統語解析のための動詞語彙知識の学習,の二つについて,モデルを記述する言語情報の記述の細かさを徐々に調整しながら,なるべく解析誤りを少なくする方向にモデルを自動改良していく手法を開発した.また,機械学習の手法が適した例題として,(3)日本語従属節の係り受け関係の解析,について,従属節の様々な特徴のうち,従属節間の係り受け関係の特定に最も寄与する特徴を選択的に学習することに成功した.
第2点については,まず,(2)の統語解析のための動詞語彙知識の学習において,統語的曖昧性の解消の性能に関して,幾つかの対照モデルと比較して,確率モデル学習の手法により構築された最適モデルが最も優れでいることを示した.また,(3)の日本語従属節の係り受け関係の解析において,獲得された言語知識を用いてあらかじめ従属節間の係り受け関係を特定しておくことにより,文全体の係り受け解析の性能が向上することを示した.

Report

(2 results)
  • 1998 Annual Research Report
  • 1997 Annual Research Report
  • Research Products

    (15 results)

All Other

All Publications (15 results)

  • [Publications] 北内啓: "誤り駆動型の確率モデル学習による日本語形態素解析" 情報処理学会研究報告. 98-NL-124. 41-48 (1998)

    • Related Report
      1998 Annual Research Report
  • [Publications] 中塚 幸毅: "コーパスからの格フレーム半自動獲得のための支援環境の構築" 言語処理学会第4回年次大会論文集. 442-445 (1998)

    • Related Report
      1998 Annual Research Report
  • [Publications] Takehito Utsuro: "Lexical Knowledge Acquisition from Corpora" Proceedings of JSPS-HITACHI Workshop on New Challenges in Natural Language Processing and its Application,-Integration of Linguistics-based and Corpus-based Approaches-. 82-87 (1998)

    • Related Report
      1998 Annual Research Report
  • [Publications] 西岡山 滋之: "コーパスからの日本語従属節係り受け選好情報の抽出" 情報処理学会研究報告. 98-NL-126. 31-38 (1998)

    • Related Report
      1998 Annual Research Report
  • [Publications] Takehito Utsuro: "General-to-specific Model Selection for Subcategorization Preference" Proceedings of the 17th International Conference on Computational Linguistics and the 36th Annual Meeting of the Association for Computational Linguistics. 1314-1320 (1998)

    • Related Report
      1998 Annual Research Report
  • [Publications] 宇津呂 武仁: "コーパスからの日本語従属節係り受け選好情報の抽出および文係り受け解析における評価" 言語処理学会第5回年次大会併設ワークショップ「構文解析-現状の分析と今後の展望-」. (1999)

    • Related Report
      1998 Annual Research Report
  • [Publications] 北内 啓: "誤り駆動型の素性選択による日本語形態素解析の確率モデル学習" 情報処理学会論文誌. 40. (1999)

    • Related Report
      1998 Annual Research Report
  • [Publications] Takehito Utsuro: "Learning Probabilistic Subcategorization Preference by Identifying Case Dependencies and Optimal Noun Class Generalization Level" Proceedings of the 5th Applied Natural Language Processing Conference. 364-371 (1997)

    • Related Report
      1997 Annual Research Report
  • [Publications] 宇津呂 武仁: "最大エントロピー法による下位範疇化の確率モデル学習および統語的曖昧性解消による評価" 情報処理学会研究報告. 97-NL-119. 69-76 (1997)

    • Related Report
      1997 Annual Research Report
  • [Publications] 宮田高志: "Bayesian Networkによる下位範疇化の確率モデルおよびその学習" 情報処理学会研究報告. 97-NL-119. 77-84 (1997)

    • Related Report
      1997 Annual Research Report
  • [Publications] Takehito Utsuro: "Maximum Entropy Model Learning of Subcategorization Preference" Proceedings of the 5th Workshop on Very Large Corpora. 246-260 (1997)

    • Related Report
      1997 Annual Research Report
  • [Publications] 宇津呂 武仁: "コーパスを用いた動詞格フレーム辞書構築のための支援環境" 自然言語処理シンポジウム「実用的な自然言語処理に向けて」論文集. (1997)

    • Related Report
      1997 Annual Research Report
  • [Publications] Takashi Miyata: "Bayesian Network Models of Subcategorization and Their MDL-Based Learning from Corpus" Proceedings of the 4th Natural Language Processing Pacific Rim Symposium. 321-326 (1997)

    • Related Report
      1997 Annual Research Report
  • [Publications] 北内 啓: "誤り駆動型の確率モデル学習による日本語形態素解析" 情報処理学会研究報告. 97-NL-124. 41-48 (1998)

    • Related Report
      1997 Annual Research Report
  • [Publications] 中塚 幸毅: "コーパスからの格フレーム半自動獲得のための支援環境の構築" 言語処理学会第四回年次大会論文集. 442-445 (1998)

    • Related Report
      1997 Annual Research Report

URL: 

Published: 1997-04-01   Modified: 2016-04-21  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi