今年度は複合語抽出アルゴリズムを改良することにより、抽出精度を低下させることなく、より網羅的な用語候補抽出を可能とした。また、特定研究分野における部分研究領域に関連する用語候補選択について、複合語を構成する形態素に基づく選択方法を開発した。 複合語抽出では、候補となる形態素列がその前後でどのような形態素に接続しているかを検査することにより、用語としての形態素列の境界が不確実となるものは候補としないという判定方法を試みた。複合語抽出にあたって形態素解析に誤りがある場合、その近傍については形態素列の境界が必ずしも信頼できなくなる。候補の前後の接続要素から境界の信頼性が低いと判断される候補を排除することにより、結果としてコーパス内出現頻度が1の複合語用語候補まで抽出しても、抽出精度は低下せず、より広範な候補が抽出できることが明らかとなった。情報処理学会コーパスでは、数にして従来の2.8倍の候補を抽出しても精度は同等であるという結果が得られた。 特定部分研究領域に関連する用語抽出では、領域を代表する文字列を人間が指定し、この文学列と共起する傾向の強い形熊素を構成要素として持つ候補を検討対象とする方法を開発した。この時当該コーパス内の共起強度のみを基準とするのではなく、これに加えて、他分野のコーパスとの比較により、当該分野に特徴的な形態素だけに限定することにより、効率的に部分領域に関連する用語候補が判定できることを確認した。 また、本年度は研究計画最終年度であるため、これまでに得られた研究結果をWebページの形で公開した。
|