2012 年度実績報告書

多様なテキストへの高次アノテーションに基づく文脈理解モデルの明確化

研究課題

研究課題/領域番号	24300053
研究種目	基盤研究(B)
研究機関	京都大学
研究代表者	黒橋禎夫京都大学, 情報学研究科, 教授 (50263108)
研究分担者	河原大輔京都大学, 情報学研究科, 准教授 (10450694) 柴田知秀京都大学, 情報学研究科, 助教 (70452315)
研究期間 (年度)	2012-04-01 – 2015-03-31
キーワード	自然言語処理 / 文脈理解 / 談話解析 / 照応解析 / コーパス
研究概要	計算機による自然言語の形態素・構文解析は,コーパスに言語解釈を付与し,学習・評価を行うという方法論により90年代以降に急速に進展したが,文章の解析については,そのようなコーパス構築の複雑さ,コストの問題から進展せず,研究が停滞している状況にあった.本研究は,文脈に関する高次アノテーションを多様で大規模なコーパスに対して行うことにより,文脈理解モデルを明確化することを目的とする.具体的には,種々の文章の書き始め3文,5000文書のコーパスに対して照応関係と談話関係のアノテーションを行い,このアノテーション基準を明確化することにより計算機による文脈理解のゴールを明確化する.平成24年度は次の成果を得た. 1.対象文章の収集・選択クローリングによってウェブから大量のテキストを収集し,種々のテキスト特徴量を考慮することにより,アノテーション・コーパスのもととなるバランスのとれた文章を選択した. 2.照応関係のアノテーション基準の設計文章の結束性を担保する重要な関係である照応関係の基準を整備した.特に著者,読者が主語,目的語となる現象についてプログ記事,Eコマースサイト等に頻出する著者・読者の省略表現を整理し解釈の明確な基準を定めた. 3.アノテーション・インタフェースの作成とアノテーション・トライアルの実施アノテーション作業を行うインタフェースの設計・構築と数百文書でのアノテーション実験を行った.さらに,一部の文章については複数のアノテーターで作業を行い,その一致度をチェックすることで基準を明確化した-
現在までの達成度 (区分)	現在までの達成度 (区分) 1: 当初の計画以上に進展している理由ウェブから種々のテキスト特徴量を用いることによりバランスのとれた文章を選択する方法を確立した.また,照応関係アノテーションについて,特に著者・読者に関する基準を精緻に設計し,作業者間の統一性につても評価を実施した.
今後の研究の推進方策	平成24年度に設計した基準に基づき3000文章の照応関係アノテーションを行う.また,談話関係アノテーション基準を設計し,アノテーションを開始する.さらに自動解析システムの適用による基準・タグの見直しと修正を行う.

研究成果
(5件)

すべて 2013 2012

すべて学会発表 (5件)

[学会発表] 日本語語彙知識の統一的・整合的管理のデザイン2013
- 著者名/発表者名
  黒橋, 進, 柴田, 村脇, 河原
- 学会等名
  言語処理学会第19回年次大会
- 発表場所
  名古屋大学(愛知県)
- 年月日
  2013-03-13
[学会発表] A Reranking Approach for Dependency Parsing with Variable-sized Subtree Features2012
- 著者名/発表者名
  Shen, D. Kawahara, S. Kurohas
- 学会等名
  26th PACLIC
- 発表場所
  Bali, Indonesia
- 年月日
  2012-11-08
[学会発表] Building a Diverse Document Leads Corpus Annotated with Semantic Relations2012
- 著者名/発表者名
  M. Hangyo, D. Kawahara, S. Kurohashi
- 学会等名
  26th PACLIC
- 発表場所
  Bali, Indonesia
- 年月日
  2012-11-08
[学会発表] 自動獲得した連想概念知識に基づく談話構造解析と語義曖昧性解消2012
- 著者名/発表者名
  進義治, 黒橋禎夫
- 学会等名
  平成24年度情報処理学会関西支部支部大会
- 発表場所
  大阪大学中之島センター(大阪府)
- 年月日
  2012-09-21
[学会発表] 多様な文書の書き始めに対する意味関係タグ付きコーパスの構築2012
- 著者名/発表者名
  萩行, 河原, 黒橋
- 学会等名
  情報処理学会第206回自然言語処理研究会
- 発表場所
  〓工大大岡山キャンパス(東京都)
- 年月日
  2012-05-10

2012 年度 実績報告書

多様なテキストへの高次アノテーションに基づく文脈理解モデルの明確化

研究代表者

黒橋 禎夫 京都大学, 情報学研究科, 教授 (50263108)

現在までの達成度 (区分)

理由

研究成果

[学会発表] 日本語語彙知識の統一的・整合的管理のデザイン2013

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] A Reranking Approach for Dependency Parsing with Variable-sized Subtree Features2012

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Building a Diverse Document Leads Corpus Annotated with Semantic Relations2012

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 自動獲得した連想概念知識に基づく談話構造解析と語義曖昧性解消2012

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 多様な文書の書き始めに対する意味関係タグ付きコーパスの構築2012

著者名/発表者名

学会等名

発表場所

年月日

2012 年度実績報告書

黒橋禎夫京都大学, 情報学研究科, 教授 (50263108)