Research Abstract |
本年度は,日本語の特許文書群から複合語を抽出し,文書分類のための単語リストを生成する手法について検討した.特許庁の審査官は審査の過程で新規性のない発明を拒絶するために,拒絶の根拠となる別の特許を過去の膨大な特許文書群の中から検索しなければならない.この検索を支援するためには,種々の検索要素技術を組み合わせて精度,再現率を高める工夫が必要となる.本年度の研究では,そのような要素技術の一つとして,特許文書に含まれる,漢字・カタカナからなる複合語を抽出する手法を検討した.特許文書は従来にない新規の技術を説明する技術文書であり,フォーマルな文体で記述されることから,ひらがな表記の単語の使用頻度は低く,カタカナや漢字の専門用語が多数使用されている.たとえば,特許文書には,化学物質,原料,医薬品,食品,農業器具,工業製品の名称などの専門用語が多数含まれる.このため,特許文書群においては,特に漢字・カタカナの単語に対する形態素解析の誤りが多数発生し,もともと意味のあった文字列が無意味な短い文字列に分割されるという問題が生じる.この問題に対して,本年度の研究では,まず,すべての特許文書に対して形態素解析を行い,文字種を手がかりとして過剰に分割された形態素列から複合形態素の候補を生成する手法を検討した.さらに,これまでの研究で取り組んだマレー語の接辞処理の手法を発展させ,日本語の漢字・カタカナの複合形態素の候補から,無意味な接辞部分を取り除く手法を検討した.接辞を除去した複合形態素を文書分類のための単語リストに含めることで,重要な複合形態素のみからなる決定則の抽出が期待できる.文書分類のための決定則抽出のソフトウエアと特許検索タスクテストコレクションを用いた評価実験の結果,提案法により文書分類の精度(F-measure)が向上することを確認した.
|