2005 年度実績報告書

文脈に最適な言い換えをWebから自動獲得する手法に関する研究

研究課題

研究課題/領域番号	17700144
研究機関	北陸先端科学技術大学院大学
研究代表者	風間淳一北陸先端科学技術大学院大学, 情報科学研究科, 助手 (60377439)
キーワード	言い換え / Web / 自動獲得 / 属性 / 木構造カーネル
研究概要	平成17年度の研究実績は以下の通りである。(1)本研究のベースとなる動詞の項の分布の類似度に基づいたLinらの手法が本研究が対象とする日本語に対してどの程度有効であるかを検証するため、日本語に対してLinらの手法を実装した。新聞記事での予備的な実験から、正解率は、第一候補の言い換えで6割程度という低精度であることが明らかになった。(2)低精度の原因の一つは、単語のスパース性により信頼性の高い分布情報が得られないことであり、本研究の目的を達成するにはこの問題の解決が不可欠である。そこで、スパース性を解決する方法の一つである単語クラスタリングに注目し、その際に有効であるとされる単語の属性の知識(「車」に対する「ハンドル」など)をWebから自動獲得する手法の提案を行った。加えて、獲得した属性を評価するための基準も提案した。実験により、緩い基準で約85%、厳しい基準で約73%の適合率で単語の属性を獲得できることを示した。(3)言い換えの高精度獲得のためには、対象文およびWeb上の文の構文木、あるいは、周囲のWeb文書の木構造まで利用することも必要である。そこで、木構造間の類似度を測る木構造カーネルについても研究を行った。木構造カーネルは、例えば、単語クラスタリングを構文木(の部分)のクラスタリングへ精密化する際に有用であると期待されるが、従来のDPによる計算方法では計算コストが膨大であり、クラスタリングも現実的時間で行えないという問題があった。これを解決するため、自然言語データの性質を利用して木をあらかじめベクトルに変換することでクラスタリングなどの学習を大幅に高速化(約20-60倍)する手法を提案した。加えて、高精度な構文木クラスタリングやノード間関係分類に向けて、構文木の一部のノードに注目して類似度を計算することができるマークつきラベル順序木カーネルを提案した。

研究成果

(5件)

すべて 2006 2005

すべて雑誌論文 (5件)

[雑誌論文] Automatic Discovery of Attribute Words from Web Documents2006
- 著者名/発表者名
  Kosuke Tokunaga, Jun'ichi Kazama, Kentaro Torisawa
- 雑誌名
  
  LNAI 3651, Natural Language Processing - IJCNLP 2005
  
  ページ: 106-118
[雑誌論文] 木構造カーネルの高速化とノード関係分類への応用2006
- 著者名/発表者名
  風間淳一, 鳥澤健太郎
- 雑誌名
  
  言語処理学会第12回年次大会
[雑誌論文] Speeding up Training with Tree Kernels for Node Relation Labeling2005
- 著者名/発表者名
  Jun'ichi Kazama, Kentaro Torisawa
- 雑誌名
  
  Proceedings of the Human Language Technology Conference and Conference on Empirical Methods in Natural Language Processing (HLT/EMNLP 2005)
  
  ページ: 137-144
[雑誌論文] Maximum Entropy Models with Inequality Constraints : A case study on text categorization.2005
- 著者名/発表者名
  Jun'ichi Kazama, Jun'ichi Tsujii
- 雑誌名
  
  Machine Learning 60(1-3)
  
  ページ: 159-194
[雑誌論文] HTML文書からの属性語の自動抽出2005
- 著者名/発表者名
  徳永耕亮, 風間淳一, 鳥澤健太郎
- 雑誌名
  
  言語処理学会第11回年次大会

2005 年度 実績報告書

文脈に最適な言い換えをWebから自動獲得する手法に関する研究

研究代表者

風間 淳一 北陸先端科学技術大学院大学, 情報科学研究科, 助手 (60377439)

研究成果

[雑誌論文] Automatic Discovery of Attribute Words from Web Documents2006

著者名/発表者名

雑誌名

[雑誌論文] 木構造カーネルの高速化とノード関係分類への応用2006

著者名/発表者名

雑誌名

[雑誌論文] Speeding up Training with Tree Kernels for Node Relation Labeling2005

著者名/発表者名

雑誌名

[雑誌論文] Maximum Entropy Models with Inequality Constraints : A case study on text categorization.2005

著者名/発表者名

雑誌名

[雑誌論文] HTML文書からの属性語の自動抽出2005

著者名/発表者名

雑誌名

2005 年度実績報告書

風間淳一北陸先端科学技術大学院大学, 情報科学研究科, 助手 (60377439)