2008 Fiscal Year Annual Research Report

逆系列アラインメント問題の条件付確率場による解法と情報抽出への応用

Research Project

Project/Area Number	18700148
Research Institution	Nara Institute of Science and Technology
Principal Investigator	新保仁 Nara Institute of Science and Technology, 情報科学研究科, 助教 (90311589)
Keywords	並列句解析 / 自然言語処理 / アラインメント
Research Abstract	昨年度までに開発した英語並列句解析技術を日本語に対して適用した.対象文書は, 医療文献ではなく, 一般の新聞記事や百科事典である. 日本語については, 英語の並列句と異なり, 並列句が文中に含まれているかいないかの判別自体が問題となり, これが精度向上の妨げとなることがわかった.英語の場合には少数の接続詞"and""or"などの手がかり表現が文内に含まれていれば, ほぼ間違いなく並列句がその周辺にある.これに対し, 日本語では, 「と」「も」といった助詞が, 下の例のように並列句を導くとは限らない. 高台寺と清水寺に行った(「高台寺」と「清水寺]の並列) 友達と清水寺に行った.(「友達」と「清水寺」は非並列) このため, 並列解析モデルを改良し, (並列句範囲の同定に加えて)並列句の存在判定も同時に行う手法を提案した.この改良はアラインメント計算に用いるグラフに一本の辺を追加するだけの簡単な変更である。しかしながら, EDRコーパスの平凡社百科事典セクションを用いて評価したところ, 改良前と比べて大きな性能の向上が見られ, 既存の規則ベースの並列解析器を上回る性能が得られた. また, 並列句間の距離に応じて素性を分解する(ことなる素性として扱う)ことで, さらに性能が向上することがわかった. さらに, 機械学習分野で注目されているカーネル法をリンク解析に適用する際の問題点について調査を行い, 複数のトピック(コミュニティ)が存在するグラフにおける, ある種のカーネルの問題点を指摘し、そのための解決法を提案した.成果は, PKDD, KDD, IJCNLPといった国際学会にて公表した.

Research Products
(4 results)

All 2009 2008

All Presentation (4 results)

[Presentation] バイパス付き編集グラフを用いた日本語並列構造解析2009
- Author(s)
  大熊秀治, 新保仁, 原一夫, 松本裕治
- Organizer
  情報処理学会研究報告, 自然言語処理研究会2009-NL-190
- Place of Presentation
  東京
- Year and Date
  2009-03-26
[Presentation] GEMAコーパスからのネスト並列句同定2008
- Author(s)
  原一夫, 新保仁, 大熊秀治, 松本裕治
- Organizer
  情報処理学会研究報告, 自然言語処理研究会2008-NL-187
- Place of Presentation
  熱海
- Year and Date
  2008-09-24
[Presentation] A Family of Dissimilarity Measures between Nodes Generalizing Both the Shortest-Path and the Commute-time Distances2008
- Author(s)
  Yen, Mantrach, Saerens, Shimbo
- Organizer
  ACM SIGKDD Conference
- Place of Presentation
  Las Vegas, USA
- Year and Date
  2008-08-26
[Presentation] 機械学習と系列アラインメントを応用した日本語並列句解析2008
- Author(s)
  大熊秀治, 新保仁, 原一夫, 松本裕治
- Organizer
  008年度人工知能学会全国大会(第22回)
- Place of Presentation
  旭川
- Year and Date
  2008-06-11

2008 Fiscal Year Annual Research Report

逆系列アラインメント問題の条件付確率場による解法と情報抽出への応用

Principal Investigator

新保 仁 Nara Institute of Science and Technology, 情報科学研究科, 助教 (90311589)

Research Products

[Presentation] バイパス付き編集グラフを用いた日本語並列構造解析2009

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] GEMAコーパスからのネスト並列句同定2008

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] A Family of Dissimilarity Measures between Nodes Generalizing Both the Shortest-Path and the Commute-time Distances2008

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 機械学習と系列アラインメントを応用した日本語並列句解析2008

Author(s)

Organizer

Place of Presentation

Year and Date

新保仁 Nara Institute of Science and Technology, 情報科学研究科, 助教 (90311589)