1997 年度実績報告書

既存知識を利用した小規模コーパスからの知識獲得

研究課題

研究課題/領域番号	09780308
研究機関	茨城大学
研究代表者	新納浩幸茨城大学, 工学部, 講師 (10250987)
キーワード	コーパス / 辞書 / シソ-ラス / 文書校正 / 同音異義語 / N-gram / 決定リスト
研究概要	本研究の目的は,小規模コーパスから言語処理に有用な知識を獲得することである.大規模コーパスから有用な知識が得られることは解明されてきたが,実際に大規模コーパスを準備することは困難であり,小規模コーパスからどのように知識を抽出するかが現実的な問題としてある.本研究ではこの問題に対し,既存にある知識を併用することを試みている.基本的には既存の辞書やシソ-ラスが有用である.ただし,それらは人間が利用するために作られたものであり,機械処理には向いていない.そこでまず既存のシソ-ラス補強することを検討し,成果を論文誌に発表した. また研究を進めるにあたり,自然言語処理の様々な問題は語義選択問題に帰着されることがわかってきた.そこで,語義選択問題の中でも特に,応用が明確な文書校正に着目した研究を開始した.具体的には,同音異義語の誤り検出に対して決定リストの手法,平仮名列の誤り検出に対してN-gram手法といった統計的な手法を試みた.その結果,これらの誤り検出にもコーパスを利用した統計的な手法が効果的であることを確認した.それによって,やはり小規模のコーパスからの誤り検出アルゴリズムの自動獲得の必要性も確認できた.子の成果は発表予定である.また,この研究を通して,辞書の例文やシソ-ラスといった既存の知識が検出アルゴリズムの自動獲得に有用であることが予想できたので,次のこれらを実施するためのデータ作りを現在行なっている.

研究成果
(3件)

すべてその他

すべて文献書誌 (3件)

[文献書誌] 新納浩幸: "コーパスを利用した分類語彙表の未登録語義の発見" 情報処理学会論文誌. 38.5. 965-961 (1997)
[文献書誌] 新納浩幸: "複合語判定を優先させた決定リストによる同音異義語判定" 情報処理学会自然言語処理研究会. NL-124(発表予定). (1998)
[文献書誌] 新納浩幸: "平仮名N-gramによる平仮名の誤り検出とその修正" 言語処理学会第4回年次大会. C4-1(発表予定). (1998)