1995 Fiscal Year Annual Research Report
自然言語テキストからの語彙的知識獲得および獲得結果を利用した効率的文解析法
Project/Area Number |
07780326
|
Research Institution | Nara Institute of Science and Technology |
Principal Investigator |
宇津呂 武仁 奈良先端科学技術大学院大学, 情報科学研究科, 助手 (90263433)
|
Keywords | 自然言語処理 / コーパス / 語彙知識獲得 / 多義性類別 / 動詞の用法 / 構文解析 / 用例検索 / 対訳テキスト |
Research Abstract |
本研究では、自然言語テキストから語彙知識を獲得し、さらに獲得結果を実際の言語処理において効率的に利用し、処理精度を向上させる手法について研究を行なった。本年度の研究項目は次の3点である。 1.実用レベルの規模のコーパスから、実用レベルの規模の数の動詞について語彙知識を獲得する。 2.動詞の語彙知識獲得において、対訳テキストを利用して動詞の多義性を類別する。 3.自然言語テキストから統語知識を抽出する。 まず、第1点については、これまでに確立してきた動詞の語彙知識獲得手法により、日本電子化辞書の大量の構文解析済み日本語テキストから動詞の語彙知識を獲得する実験を行なった。この実験の結果、動詞の語彙知識獲得の際に多義動詞の多義性を類別しながら語彙知識を獲得するというメカニズムが、実用的規模で有効に機能することが確認できた。 また、第2点については、これまでに確立してきた、動詞の語彙知識獲得ならびに多義動詞の多義性類別の半自動的手法の自動化を実現した。この手法の特徴は、単言語文においては類別することが難しい自然言語の意味的曖昧性を、英語への翻訳結果における意味分類を参照することによって類別できる点である。本研究においては、この利点を損なうことなく、手法の自動化を行なうことができた。 さらに、第3点は、獲得結果を利用した効率的文解析を実現するための基礎研究として行なったもので、効率的文解析で用いる統語知識を自然言語テキストデータから抽出することを行なった。特に、構文解析済みテキストから文脈自由文法の形式の文法規則を抽出する手法を開発した。この手法においては、適用範囲が広くしかも解析精度の高い文法を抽出するために、非終端記号の統計的類似度を用いて文法を一般化するというメカニズムを実現した。
|
Research Products
(6 results)
-
[Publications] Andre Wlodarczyk: "Towards High Quality Computerised Linguistic Tools Processing Japanese Information" Proceedings of the 4th International Conference on Japanese Information in Science,Technology,Industry,and Business. (1995)
-
[Publications] 宇津呂武仁: "対訳辞書および統計情報を用いた二言語対訳テキスト照合" コンピュータソフトウェア. 12. 414-423 (1995)
-
[Publications] 宇津呂武仁: "類似度計算テンプレートを用いた検索質問生成による最近隣検索法の最適化" 人工知能学会研究会資料. SIG-KBS-9502. 1-8 (1995)
-
[Publications] Takehito Utsuro: "Class-based Sense Classification of Verbal Polysemy in Case Frame Acquisition from Parallel Corpora" Proceedings of the 3rd Natural Language Processing Pacific Rim Symposium. 671-677 (1995)
-
[Publications] 宇津呂武仁: "非終端記号のエントロピーを用いた文脈自由文法の一般化・特殊化" 人工知能学会第10回全国大会論文集. (1996)
-
[Publications] Takehito Utsuro: "Sense Classification of Verbal Polysemy based-on Bilingual Class/Class Association" Proceedings of the 16th International Conference on Computational Linguistics. (1996)