1997 Fiscal Year Annual Research Report
自己増殖能力を持つ文法フォーマリズムとそのための超高速パーザーの開発
Project/Area Number |
08408009
|
Research Institution | The University of Tokyo |
Principal Investigator |
辻井 潤一 東京大学, 大学院・理学系研究科, 教授 (20026313)
|
Co-Investigator(Kenkyū-buntansha) |
鳥澤 健太郎 東京大学, 大学院・理学系研究科, 助手 (70282712)
|
Keywords | 自然言語処理 / 構文解析システム / 文法 / 統計処理 / 素性構造記述言語 |
Research Abstract |
本年度は、初年度で開発した高速な文解析アルゴリズムをもとに、自己組織化機能・学習機能を持つ自然言語処理システムの基本的な枠組についての研究を行ない、最終年度での本格的な実験の準備を完了した。すなわち、 [1]高速・高効率な言語処理のための記述言語(LiLFes)の開発:本研究では、記号論的な方法論と統計的な手法との融合による自己組織化機能を持ったシステムの構成を目指すが、この種のシステムの基本的な要素としての記号処理用の高速なシステム(Li Fes)を開発した。このシステムは、最終的な自己組織化機能をもったシステムにおいて、素性構造に基づく文法に基づく文解析プログラムだけでなく、言語外的な知識を記述するためにも使われる。 [2]日本語・英語の網羅的な文法の開発:実世界テキストからの学習機能を研究するためには、耐性が高い、網羅的な文法を必要とする。この目的のために、英語に関しては、米国・ペンシルベニア大学で開発されたLTAG文法を我々のシステム用に変換すること、日本語文法に関しては、語彙に関する詳細な知識がなくても文解析を行なうことができる耐性の高い文法を、それぞれ開発し、実世界テキストにこれらを適用することでその有効性を確認した。 [3]統計的学習機能を備えた言語処理システムのプロト・システムの開発:構造的にアノテーションされたテキストを学習用サンプルとして用い、規則適用の統計的な性質を学習し、それをあらたな文解析に用いるプロト・システムを開発し、そのモデルの有効性を大規模なテキスト(EDRコーパス)に適用することで確認した。このプロト・タイプは、素性構造に基づく文法記述を対象としているが、統計的に最適な素性の組合せを決定することはできず、これは最終的な実験とともに、来年度の研究課題として残っている。 [4]異なる文法フォーマリズムと自己組織化機能の相互関係に関する研究:[2]の項で述べたように、英語の文法は、ペンシルベニア大学のLTAGを我々の文法フォーマリズム(HPSG)に変換したものである。この2つの文法は、派生過程を保存するという意味で、強い意味での等価性が保証されているが、統計的な観点からも、同じ挙動を示すかどうかは不確定である。これも、統計的に最適な素性の組合せを選択する問題と同様に、最終年度の研究課題として残されている。 以上のように、いくつかの研究課題は残されているが、最終年度の大規模実験を行なうための十分な準備が整い研究第2年度の目標は十分に達成された。
|
Research Products
(4 results)
-
[Publications] T.Ninomiya, K.Torisawa, K.Taura & J.Tsujii: "A Parallel CKY Parsing Algorithm on Large-Scale Ditributed Parallel Machines" Proc.PACLING 97. 223-231 (1997)
-
[Publications] T.Nishida, T.Makino, K.Torisawa, Y.Tateisi & J.Tsujii: "Extension of a Feature Structure Abstract Machine for Partial Unification" Proc.PACLING 97. 232-243 (1997)
-
[Publications] 建石由佳, 鳥澤健太郎, 牧野貴樹, 西田健二, 淵上正睦, 辻井潤一: "LTAG文法からの変換によるHPSG英文法の作成" 情報処理学会研究報告. NL-122. 119-126 (1997)
-
[Publications] T.Makino, K.Torisawa & J.Tsujii: "LiLFeS-Practical Programing Language for Typed Feature Structures" Proc.NLPRS 97. 239-244 (1997)