研究概要 |
WWW(Web)は情報流通と情報蓄積・共有のグローバルな基盤に成長し,今後ともその重要性は増していくが,その次世代基盤・標準に向けて我が国からの貢献は皆無に近い状況にある.W3Cを中心にして次世代Web基盤としてSemantic Webの標準化が進められているが,本研究ではSemantic Webとは異なる側面を持つ代表者を含むグループによるWebテキストコンテンツ意味概念記述言語CDL (Concept Description Langauge)の国際標準化活動に連動し,CDLの使用環境ツール機能の研究開発を進めた.メタデータ記述を中心とするSemantic Webとは異なり,CDLは自然言語テキストが表す概念意味を(近似的ではあるが)全て表すことが出来,また全ての言語に対応できる共通性を有している.CDLに関する第一の技術課題は,テキストからCDLへの変換である。全自動機械翻訳が困難であるのと同様に,テキストからCDLへの全自動変換も困難であるので,人の負担の少ない半自動変換を目指し,語義(word sense)の選択と決定を介して,CDLへ変換するアプローチについて研究した.出来るだけの語義曖昧性解消をコンピュータにより行うことにより,人手介在の部分を減らすインタフェースの開発を行った.また,語句の単なるマッチングでなく,意味的なマッチングを可能とし,CDLデータの意味的検索法の研究開発を行った.CDLは単語エンティティ間を関係識別子で結んで表すことをベースとしているが,関連研究として分布仮説に基づき,単語エンティティ対間の関係類似性をWeb検索エンジンの結果を利用して計算する手法を考案,開発した.この原理を活用し,(Tokyo, Japan),(?, France)のようなエンティティ対を入力として,?=Parisを答えるような潜在的関係検索エンジン(Latent Relational Search Engine)を開発した.これは特許出願も行った. 更に,Webから抽出した多数の任意エンティティ対から意味のある関係を有するエンティティ対を抽出する,新しい共クラスタリング法によるOpen Information Retrieval手法を創案,開発した.この研究成果は,2010年4月のWWW(Web技術関係で最も権威ある国際会議)にフルペーパーとして採録され,国際的に高い評価を得た.
|