• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2002 年度 研究成果報告書概要

大規模構文木付きコーパスの作成とその保守・管理システムに関する研究

研究課題

研究課題/領域番号 12480082
研究種目

基盤研究(B)

配分区分補助金
応募区分一般
研究分野 知能情報学
研究機関東京工業大学

研究代表者

徳永 健伸  東京工業大学, 大学院・情報理工学研究科, 助教授 (20197875)

研究分担者 田中 穂積  東京工業大学, 大学院・情報理工学研究科, 教授 (80163567)
研究期間 (年度) 2000 – 2002
キーワード自然言語処理 / 大規模コーパス / 日本語文法 / 構文解析 / 構文木付きコーパス / 統計的自然言語処理
研究概要

1980年中ばから盛んに研究されているコーパスに基づく自然言語処理ではコーパスなどの言語資源が重要な役割をはたす.本研究では,そのような言語資源の中でも最近特に重要性が増している構文木付きのコーパスを作成・管理するためのシステムについて研究をおこなった.
平成12年度は,コーパスに構文構造を付与するアノテーションツールを作成した.このツールは既に我々の研究グループで開発しているパーザと協調して動作し,パーザの出力をユーザに提示する.ユーザはインタラクティブにツールを操作して,正しい構文構造を選択できる.このツールの特徴的な点はどのような順序で部分構造のあいまい性を解消すれば効率的に文全体の構造を決定できるかをユーザに提示する機能を有している点である.
平成13年度は,すでに公開されているEDRコーパスから文法を自動抽出し,その文法をできるだけあいまい性が少なくなるように改良する研究をおこなった.EDRコーパスは現在利用可能な日本語のコーパスの中でも最大規模を誇るが,コーパスに付与されている構文構造に対応する文法が存在しないという問題がある.そこで,まず文法を抽出し,それを使いながらコーパスを解析し,その結果をもとに文法を改善するという作業を繰り換えし,文法を洗練した.その際に文法のどのような規則があいまい性を増大させているかを定量的に分析しながら文法を洗練する手法を開発した.
また,構文構造を同定する上で有用な意味知識の構築に関する研究もおこなった.意味知識の構築は一般に困難であり,知識をゼロから構築するのは現実的ではない.したがって,既存の意味知識を組み合わせて知識を拡大するアプローチをとった.具体的には国語辞典の語義とシソーラスの意味クラスの対応付けを自動的にとる手法を提案し,その有効性を実験によって確認した.
平成14年度は,前年度に引き続き,文法の洗練をおこなうとともに,初年度に開発したツールを用いて,EDRコーパスの中から約20,000文を選び,これに平成13年度から開発をしている文法に基づいて構文構造を付与した.この作業を通して初年度に開発したツールの有用性を実証した.
また,構文構造を付与したコーパスを管理するために,関係データベースシステムを用いて柔軟な検索を可能にする管理システムを開発した.このシステムにより様々な部分構造を検索要求とする検索を柔軟におこなうことができる.

  • 研究成果

    (12件)

すべて その他

すべて 文献書誌 (12件)

  • [文献書誌] 田中穂積, 徳永健伸: "コンピュータが拓く新しい言語世界"月刊言語. 31・3. 16-22 (2002)

    • 説明
      「研究成果報告書概要(和文)」より
  • [文献書誌] 野呂智哉, 白井清昭, 徳永健伸, 田中穂積: "大規模日本語文法の開発-事例研究"情報処理学会自然言語処理研究会. 2002・66. 149-156 (2002)

    • 説明
      「研究成果報告書概要(和文)」より
  • [文献書誌] 野呂智哉, 岡崎篤, 徳永健伸, 田中穂積: "大規模日本語文法構築に関する一考察"言語処理学会第8回年次大会予稿集. 387-390 (2002)

    • 説明
      「研究成果報告書概要(和文)」より
  • [文献書誌] 美野秀弥, 橋本泰一, 徳永健伸, 田中穂積: "決定リストを利用した形容動詞の修飾先の決定"言語処理学会第8回年次大会予稿集. 411-414 (2002)

    • 説明
      「研究成果報告書概要(和文)」より
  • [文献書誌] Tokunaga Takenobu, Syotu Yasuhiro, Tanaka Hozumi, Shirai Kiyoaki: "Integration of heterogeneous language resources : A monolingual dictionary and a thesaurus"Proceedings of NLPRS 2001. 135-142 (2001)

    • 説明
      「研究成果報告書概要(和文)」より
  • [文献書誌] 白井清昭, 植木正裕, 橋本泰一, 徳永健伸, 田中穂積: "自然言語解析のためのMSLRパーザツールキット"自然言語処理. 7・5. 93-112 (2000)

    • 説明
      「研究成果報告書概要(和文)」より
  • [文献書誌] Tanaka, H. and Tokunaga, T.: "New research program of language by computer"Gengo. 31, No. 3. 16-22 (2002)

    • 説明
      「研究成果報告書概要(欧文)」より
  • [文献書誌] Noro, T., Sirai, K., Tokunaga, T. and Tanaka H.: "Development of large Japanese grammar-A case study-"IPSJ-SJGNL. 2002.6. 149-156 (2002)

    • 説明
      「研究成果報告書概要(欧文)」より
  • [文献書誌] Noro, T., Okazaki, A., Tokunaga, T. and Tanaka, H.: "A study on large Japanese grammar development"Annual meeting of Association of Natural Language Processing. 387-390 (2002)

    • 説明
      「研究成果報告書概要(欧文)」より
  • [文献書誌] Mino, H., Hasimoto, T. Tokunaga, T and Tanaka, H.: "Disambiguation of adverbial phrase attachment by using decision tree"Annual meeting of Association of Natural Language Processing. 411-414 (2002)

    • 説明
      「研究成果報告書概要(欧文)」より
  • [文献書誌] Tokunaga, T. and Syotu, Y., Sirai, K. and Tanaka, H.: "Integrations of heterogeneous language resources : A monolingual dictionary and a thesaurus"Proc, of NLPRS 2001. 135-142 (2001)

    • 説明
      「研究成果報告書概要(欧文)」より
  • [文献書誌] Sirai, K., Ueki, M., Hasimoto, T., Tokunaga, T. and Tanaka H.: "The MSLR parser : A toolkit of natural language processing"Natural Language Processing. 7, No. 5. 93-112 (2000)

    • 説明
      「研究成果報告書概要(欧文)」より

URL: 

公開日: 2004-04-14  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi