• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2012 Fiscal Year Annual Research Report

多様なテキストへの高次アノテーションに基づく文脈理解モデルの明確化

Research Project

Project/Area Number 24300053
Research Category

Grant-in-Aid for Scientific Research (B)

Research InstitutionKyoto University

Principal Investigator

黒橋 禎夫  京都大学, 情報学研究科, 教授 (50263108)

Co-Investigator(Kenkyū-buntansha) 河原 大輔  京都大学, 情報学研究科, 准教授 (10450694)
柴田 知秀  京都大学, 情報学研究科, 助教 (70452315)
Project Period (FY) 2012-04-01 – 2015-03-31
Keywords自然言語処理 / 文脈理解 / 談話解析 / 照応解析 / コーパス
Research Abstract

計算機による自然言語の形態素・構文解析は,コーパスに言語解釈を付与し,学習・評価を行うという方法論により90年代以降に急速に進展したが,文章の解析については,そのようなコーパス構築の複雑さ,コストの問題から進展せず,研究が停滞している状況にあった.本研究は,文脈に関する高次アノテーションを多様で大規模なコーパスに対して行うことにより,文脈理解モデルを明確化することを目的とする.具体的には,種々の文章の書き始め3文,5000文書のコーパスに対して照応関係と談話関係のアノテーションを行い,このアノテーション基準を明確化することにより計算機による文脈理解のゴールを明確化する.平成24年度は次の成果を得た.
1.対象文章の収集・選択
クローリングによってウェブから大量のテキストを収集し,種々のテキスト特徴量を考慮することにより,アノテーション・コーパスのもととなるバランスのとれた文章を選択した.
2.照応関係のアノテーション基準の設計
文章の結束性を担保する重要な関係である照応関係の基準を整備した.特に著者,読者が主語,目的語となる現象についてプログ記事,Eコマースサイト等に頻出する著者・読者の省略表現を整理し解釈の明確な基準を定めた.
3.アノテーション・インタフェースの作成とアノテーション・トライアルの実施
アノテーション作業を行うインタフェースの設計・構築と数百文書でのアノテーション実験を行った.さらに,一部の文章については複数のアノテーターで作業を行い,その一致度をチェックすることで基準を明確化した-

Current Status of Research Progress
Current Status of Research Progress

1: Research has progressed more than it was originally planned.

Reason

ウェブから種々のテキスト特徴量を用いることによりバランスのとれた文章を選択する方法を確立した.また,照応関係アノテーションについて,特に著者・読者に関する基準を精緻に設計し,作業者間の統一性につても評価を実施した.

Strategy for Future Research Activity

平成24年度に設計した基準に基づき3000文章の照応関係アノテーションを行う.また,談話関係アノテーション基準を設計し,アノテーションを開始する.さらに自動解析システムの適用による基準・タグの見直しと修正を行う.

  • Research Products

    (5 results)

All 2013 2012

All Presentation (5 results)

  • [Presentation] 日本語語彙知識の統一的・整合的管理のデザイン2013

    • Author(s)
      黒橋, 進, 柴田, 村脇, 河原
    • Organizer
      言語処理学会第19回年次大会
    • Place of Presentation
      名古屋大学(愛知県)
    • Year and Date
      2013-03-13
  • [Presentation] A Reranking Approach for Dependency Parsing with Variable-sized Subtree Features2012

    • Author(s)
      Shen, D. Kawahara, S. Kurohas
    • Organizer
      26th PACLIC
    • Place of Presentation
      Bali, Indonesia
    • Year and Date
      2012-11-08
  • [Presentation] Building a Diverse Document Leads Corpus Annotated with Semantic Relations2012

    • Author(s)
      M. Hangyo, D. Kawahara, S. Kurohashi
    • Organizer
      26th PACLIC
    • Place of Presentation
      Bali, Indonesia
    • Year and Date
      2012-11-08
  • [Presentation] 自動獲得した連想概念知識に基づく談話構造解析と語義曖昧性解消2012

    • Author(s)
      進義治, 黒橋禎夫
    • Organizer
      平成24年度情報処理学会関西支部支部大会
    • Place of Presentation
      大阪大学中之島センター(大阪府)
    • Year and Date
      2012-09-21
  • [Presentation] 多様な文書の書き始めに対する意味関係タグ付きコーパスの構築2012

    • Author(s)
      萩行, 河原, 黒橋
    • Organizer
      情報処理学会第206回自然言語処理研究会
    • Place of Presentation
      〓工大大岡山キャンパス(東京都)
    • Year and Date
      2012-05-10

URL: 

Published: 2014-07-16  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi