Research Abstract |
「自然言語処理」分野に含まれる専門用語「形態素解析」と「機械翻訳」は, いずれもシステムの入力 (処理対象) が自然言語であるという共通の性質を持つ. 平成20年度は, 用語間の意味的な類似性を測る分布類似度という尺度を用い, このような共通の性質を持つ専門用語の自動収集を試みた. 分布類似度は, ある用語と別の用語が意味的に類似していれば, その文脈に数多くの用語が共通して出現する, という仮定に基づいた尺度であり, 近年, 自然言語処理分野において, 類義語抽出の有効な手段のひとつとして認識されてきている. 本研究では, 分布類似度を, 類義語抽出の手法としてだけでなく, 共通の性質を持つ用語の収集にも利用できると考え, 1993年〜2002年の公開特許公報に含まれる約4億5千万文を用いて, システムの構築を行った. 現在, その検証を行っている. 平成20年度は, この他, 技術動向分析システムの改良を行った. 研究代表者は, これまでに「サポートベクトルマシンを用いたテキスト自動要約」といった論文表題から, 「を用いた」のような手掛かり句に着目することで, この論文の主題として「テキスト自動要約」, 要素技術として「サポートベクトルマシン」を抽出する手法を提案してきた. 平成20年度は, この手法を英語論文にも拡張し, 日英論文を対象にした言語横断技術動向分析システムを構築した. 英語論文表題の構造は, 日本語論文の表題と比べ多様であり, 日本語論文の表題解析手法と同様の方法では十分な解析精度が得られない, という問題があった. そこで, 英語論文表題の構造を解析する際, 機械翻訳技術と日本語論文の表題構造解析技術も併せて用いることにより, 精度の向上を試みた. 実験により, 精度78.0%, 再現率75.2%の解析精度が得られ, 提案手法の有効性が確認された.
|