研究概要 |
情報流通と情報蓄積・共有,更には共創のグローバルな基盤に成長したWebを,コンピュータがその情報コンテンツの意味内容を把握できるようにして,検索・マイニング・編集・組織化等の意味に立ち入る操作を可能にする次世代知能化Web基盤に向けた研究開発を進めた.具体的には,メタデータ記述を中心とするSemantic Webとは異なり,我が国発の技術として我々が中心でW3Cで国際標準化を行っている,自然言語テキストが表す概念意味の共通的記述言語であるCDL(Concept Description Language)に関する研究を進めた.CDLに関する第一の技術課題は,テキストからCDLへの変換である.全自動機械翻訳が困難であるのと同様に,テキストからCDLへの全自動変換も困難であるので,人の負担の少ない半自動変換を目指し,語義(word sense)の選択と決定を介して,CDLへ変換するアプローチについて研究した.出来るだけの語義曖昧性解消をコンピュータにより行うことにより,人手介在の部分を減らすインタフェースの開発を行った.また,語句の単なるマッチッグでなく,意味的なマッチングを可能とし,CDLデータの意味的検索法の研究開発を行った. CDLは単語エンティティ間を関係識別子で結んで表すことをベースとしているが,関連研究として分布仮説に基づき,単語エンティティ対間の関係類似性をWeb検索エンジンの結果を利用して計算する手法を考案,開発した.この原理を活用し,(Tokyo, Japan), (?, France)のようなエンティティ対を入力として,?=Parisを答えるような潜在的関係検索エンジン(Latent Relational Search Engine)を開発した.これは特許出願も行った. 更に,Webから抽出した多数の任意エンティティ対から意味のある関係を有するエンティティ対を抽出する,新しい共クラスタリング法によるOpen Information Retrieval手法を創案,開発した.この研究成果は,2010年4月のWWW(Web技術関係で最も権威ある国際会議)にフルペーパーとして採録され,国際的に高い評価を得た.
|