2008 Fiscal Year Annual Research Report
自然言語処理技術を利用した英語コロケーションリストの作成
Project/Area Number |
20720145
|
Research Institution | Osaka University |
Principal Investigator |
後藤 一章 Osaka University, サイバーメディアセンター, 特任助教 (90397662)
|
Keywords | コロケーション / 自然言語処理技術 / コーパス言語学 / 統語解析 / 英語教育 |
Research Abstract |
平成20年度は、英語教育の見地から、コロケーション抽出に最適な英文統語解析手法の調査及び実験を行った。既存の複数の統語解析器を検証した結果、いずれも解析精度は一定水準に達していたものの、操作性に少なからず問題点が見出された。すなわち、統語解析を行った後、解析データからコロケーションを網羅的に抽出するためには、さらに複雑なテキスト解析処理が必要であった。反復的なコロケーション抽出処理が今後も必須になることを考慮すると、既存の構文解析器では非効率的であり、コロケーション分析に特化したソフトウェアの必要性が認識された。そこで、Link Grammar Parserという既存の解析機をベースとし、情報科学分野の研究者の協力を得て、新たなコロケーション分析プログラムの開発に着手した。本プログラムの開発により、本研究課題におけるコロケーション分析の効率化が見込まれると共に、コーパス言語学分野におけるコロケーション研究のさらなる活性化への貢献が期待される。 統語解析に関する研究と並行し、コーパスから任意のキーワードのコロケーションを過不足なく抽出するためのアルゴリズムを探求した。具体的には、単語によって生起しやすい統語構造の特定を試み、当該統語構造に基づいて効果的にコロケーション抽出を行う手法を模索した。また、抽出されたコロケーションの重要性を推定するため、様々な言語使用域(ジャンル)において普遍的に出現するコロケーションを発見し、種々の使用域における共通性の高さを重要度の指標として評価した。翌年度は、こうした重要コロケーションの発見手法をより精緻化し、有用性の高いコロケーションリストの開発に臨む予定である。
|
Research Products
(5 results)