1997 Fiscal Year Annual Research Report

統計モデルに基づく大規模テキストへの言語情報付与及びテキストからの言語知識獲得

Research Project

Project/Area Number	09780338
Research Institution	Nara Institute of Science and Technology
Principal Investigator	宇津呂武仁奈良先端科学技術大学院大学, 情報科学研究科, 助手 (90263433)
Keywords	自然言語処理 / コーパス / 統計モデル / 言語情報付与 / 言語知識獲得 / 確率モデル学習 / 動詞の語彙知識 / 形態素解析モデル
Research Abstract	本研究では,大量のテキストデータに対して豊富な言語情報を効率よく付与するという手法の研究を行った.さらに,豊富な言語情報が付与されたテキストから,様々な言語現象に関する知識を統一的に獲得する手法について研究をおこなった.本年度の研究項目は次の3点である. 1.テキストから動詞の語彙知識を獲得する際に,名詞の語義などの意味情報を効率よく付与する. 2.様々な言語知識を対象として,確率モデル学習の手法に基づいて,テキストから言語知識を学習する. 3.計算機による判断が困難な部分に人間の判断を許し,高精度な語彙知識をテキストから半自動的に獲得する. まず,第1点については,構文情報が付与されたテキストから動詞の語彙知識を獲得する際に,名詞の語義などの意味情報の有無が,獲得結果の精度にどのように影響するかについての予備調査を行った.さらに,名詞の語義などの意味情報を,人間の判断を最小限に抑えながら,効率よく付与する手法について,調査研究を行った. また,第2点については,(1)日本語形態素解析,(2)統語解析のための動詞語彙知識の学習,の二つを例題として,モデルを記述する言語情報の記述の細かさを徐々に調整しながら,なるべく解析誤りを少なくする方向にモデルを自動改良していく手法を開発した.実際に,(1)の日本語形態素解析においては,高精度な日本語形態素解析を実現することに成功した.また,(2)統語解析のための動詞語彙知識の学習においても,名詞と動詞の間の共起性を記述する高精度な共起知識を学習することに成功した. さらに,第3点においては,動詞の語彙知識獲得を例題として,人間の判断を最小限に抑えながら,高精度な動詞語彙知識をテキストから半自動的に効率よく獲得する手法を実現し,また,人間の判断を計算機に効率よく伝えるためのインタフェースを開発した.実際に,構文情報が付与されたテキストから動詞の語彙知識を獲得する実験を通して,高精度な動詞語彙知識が効率よく獲得できることを確認した.

Research Products

(8 results)

All Other

All Publications (8 results)

[Publications] Takehito Utsuro: "Learning Probabilistic Subcategorization Preference by Identifying Case Dependencies and Optimal Noun Class Generalization Level" Proceedings of the 5th Applied Natural Language Processing Conference. 364-371 (1997)
[Publications] 宇津呂武仁: "最大エントロピー法による下位範疇化の確率モデル学習および統語的曖昧性解消による評価" 情報処理学会研究報告. 97-NL-119. 69-76 (1997)
[Publications] 宮田高志: "Bayesian Networkによる下位範疇化の確率モデルおよびその学習" 情報処理学会研究報告. 97-NL-119. 77-84 (1997)
[Publications] Takehito Utsuro: "Maximum Entropy Model Learning of Subcategorization Preference" Proceedings of the 5th Workshop on Very Large Corpora. 246-260 (1997)
[Publications] 宇津呂武仁: "コーパスを用いた動詞格フレーム辞書構築のための支援環境" 自然言語処理シンポジウム「実用的な自然言語処理に向けて」論文集. (1997)
[Publications] Takashi Miyata: "Bayesian Network Models of Subcategorization and Their MDL-Based Learning from Corpus" Proceedings of the 4th Natural Language Processing Pacific Rim Symposium. 321-326 (1997)
[Publications] 北内啓: "誤り駆動型の確率モデル学習による日本語形態素解析" 情報処理学会研究報告. 97-NL-124. 41-48 (1998)
[Publications] 中塚幸毅: "コーパスからの格フレーム半自動獲得のための支援環境の構築" 言語処理学会第四回年次大会論文集. 442-445 (1998)

1997 Fiscal Year Annual Research Report

統計モデルに基づく大規模テキストへの言語情報付与及びテキストからの言語知識獲得

Principal Investigator

宇津呂 武仁 奈良先端科学技術大学院大学, 情報科学研究科, 助手 (90263433)

Research Products

[Publications] Takehito Utsuro: "Learning Probabilistic Subcategorization Preference by Identifying Case Dependencies and Optimal Noun Class Generalization Level" Proceedings of the 5th Applied Natural Language Processing Conference. 364-371 (1997)

[Publications] 宇津呂 武仁: "最大エントロピー法による下位範疇化の確率モデル学習および統語的曖昧性解消による評価" 情報処理学会研究報告. 97-NL-119. 69-76 (1997)

[Publications] 宮田高志: "Bayesian Networkによる下位範疇化の確率モデルおよびその学習" 情報処理学会研究報告. 97-NL-119. 77-84 (1997)

[Publications] Takehito Utsuro: "Maximum Entropy Model Learning of Subcategorization Preference" Proceedings of the 5th Workshop on Very Large Corpora. 246-260 (1997)

[Publications] 宇津呂 武仁: "コーパスを用いた動詞格フレーム辞書構築のための支援環境" 自然言語処理シンポジウム「実用的な自然言語処理に向けて」論文集. (1997)

[Publications] Takashi Miyata: "Bayesian Network Models of Subcategorization and Their MDL-Based Learning from Corpus" Proceedings of the 4th Natural Language Processing Pacific Rim Symposium. 321-326 (1997)

[Publications] 北内 啓: "誤り駆動型の確率モデル学習による日本語形態素解析" 情報処理学会研究報告. 97-NL-124. 41-48 (1998)

[Publications] 中塚 幸毅: "コーパスからの格フレーム半自動獲得のための支援環境の構築" 言語処理学会第四回年次大会論文集. 442-445 (1998)

宇津呂武仁奈良先端科学技術大学院大学, 情報科学研究科, 助手 (90263433)

[Publications] 宇津呂武仁: "最大エントロピー法による下位範疇化の確率モデル学習および統語的曖昧性解消による評価" 情報処理学会研究報告. 97-NL-119. 69-76 (1997)

[Publications] 宇津呂武仁: "コーパスを用いた動詞格フレーム辞書構築のための支援環境" 自然言語処理シンポジウム「実用的な自然言語処理に向けて」論文集. (1997)

[Publications] 北内啓: "誤り駆動型の確率モデル学習による日本語形態素解析" 情報処理学会研究報告. 97-NL-124. 41-48 (1998)

[Publications] 中塚幸毅: "コーパスからの格フレーム半自動獲得のための支援環境の構築" 言語処理学会第四回年次大会論文集. 442-445 (1998)