研究課題
平成17年度の研究実績は以下の通りである。(1)本研究のベースとなる動詞の項の分布の類似度に基づいたLinらの手法が本研究が対象とする日本語に対してどの程度有効であるかを検証するため、日本語に対してLinらの手法を実装した。新聞記事での予備的な実験から、正解率は、第一候補の言い換えで6割程度という低精度であることが明らかになった。(2)低精度の原因の一つは、単語のスパース性により信頼性の高い分布情報が得られないことであり、本研究の目的を達成するにはこの問題の解決が不可欠である。そこで、スパース性を解決する方法の一つである単語クラスタリングに注目し、その際に有効であるとされる単語の属性の知識(「車」に対する「ハンドル」など)をWebから自動獲得する手法の提案を行った。加えて、獲得した属性を評価するための基準も提案した。実験により、緩い基準で約85%、厳しい基準で約73%の適合率で単語の属性を獲得できることを示した。(3)言い換えの高精度獲得のためには、対象文およびWeb上の文の構文木、あるいは、周囲のWeb文書の木構造まで利用することも必要である。そこで、木構造間の類似度を測る木構造カーネルについても研究を行った。木構造カーネルは、例えば、単語クラスタリングを構文木(の部分)のクラスタリングへ精密化する際に有用であると期待されるが、従来のDPによる計算方法では計算コストが膨大であり、クラスタリングも現実的時間で行えないという問題があった。これを解決するため、自然言語データの性質を利用して木をあらかじめベクトルに変換することでクラスタリングなどの学習を大幅に高速化(約20-60倍)する手法を提案した。加えて、高精度な構文木クラスタリングやノード間関係分類に向けて、構文木の一部のノードに注目して類似度を計算することができるマークつきラベル順序木カーネルを提案した。
すべて 2006 2005
すべて 雑誌論文 (5件)
LNAI 3651, Natural Language Processing - IJCNLP 2005
ページ: 106-118
言語処理学会第12回年次大会
Proceedings of the Human Language Technology Conference and Conference on Empirical Methods in Natural Language Processing (HLT/EMNLP 2005)
ページ: 137-144
Machine Learning 60(1-3)
ページ: 159-194
言語処理学会第11回年次大会