1998 Fiscal Year Annual Research Report
Project/Area Number |
09780315
|
Research Institution | Tokyo University of Agriculture and Technology |
Principal Investigator |
乾 伸雄 東京農工大学, 工学部, 助手 (20236384)
|
Keywords | シソーラン / 自然言語 / 辞書 / 係り受け / 形態素 / 意味 / 副詞 / コーパス |
Research Abstract |
本研究では,受け係り関数を用いて,単語や句のレベルでの意味的なつながりを獲得し,辞書を構築することを目的としている.本年度は,形態素解析の精度を向上すること目的とした,辞書の構築に主眼をおいて,研究開発を行った.昨年度の研究では,コーパスと既存のシソーラスを用いて意味的な分類を行った.特に,従来あまり着目されてこなかった副詞を題材として取り上げた.本年度は,形態素解析の精度を向上することを主眼とする一般的な辞書の構築を中心に研究を実施した. 形態素解析の手法としては,現在主流となっている隠れマルコフモデルを用いる.この手法の有利な点は,頑健性に富む点である.更なる精度の向上のためには,コーパスから有意義な統計情報を獲得することが鍵となる.本研究では,下記の三種類の辞書を構築し,実験を行った. 1 単語分類の階層構造を利用した辞書 2 部分コーパスごとに得られた統計量を総合して得られる辞書 3 多品詞性を考慮した辞書 隠れマルコフモデルを用いた形態素解析においては,形態素レベルあるいは品詞レベルの状態遷移を考慮するのが普通である.1の研究においては,状態の遷移を同時確率で表現し,形態素・品詞階層間の相互作用の有無によって推定する手法を開発した.2ではコーパス間の統計量の差異から真の統計量を推定する手法を開発した.3においては,個々の単語が取り得る品詞による分類を既存の品詞による分類に含めることによって,新たな分類を作成した.これらの手法によって作成した辞書を形態素解析に適用したところ,既存の方法よりも高い精度が得られることを確認した.例えば,3の方法で2連接確率を用いたものは通常の品詞での3連接確率を用いたものよりも高い精度が得られた. 今後の課題として,これらの方法で作成した辞書が形態素解析だけでなく一般的な辞書として有効であることを示すために,構文解析などで実験を行うことを考えている.
|
-
[Publications] 藤本 浩司: "枝分かれ構造を持つ同時確率モデルによる形態素解析" 情報処理学会論文誌. 39-7. 2101-2111 (1998)
-
[Publications] 乾伸雄: "コーパス分割を用いた良質な統計量の推定" 情報処理学会全国大会. 57. 3R-7 (1998)
-
[Publications] Fujimoto K.: "Learning Parameters with Nested Joint Probability Model" Applied Informatics(AI'99). (1999)
-
[Publications] 乾 伸雄: "多品詞性を考慮した日本語形態素解析" 情報処理学会研究報告. 99-NL-130. 25-32 (1999)