2008 Fiscal Year Annual Research Report
自然言語意味概念の共通的記述に基づく次世代Web基盤環境構築とその知能化機能
Project/Area Number |
19200010
|
Research Institution | The University of Tokyo |
Principal Investigator |
石塚 満 The University of Tokyo, 大学院・情報理工学系研究科, 教授 (50114369)
|
Keywords | Web知能化 / テキスト処理 / 概念表現 / 次世代Web基盤 / 意味計算 / 関係抽出 |
Research Abstract |
情報流通と情報蓄積・共有,更には共創のグローバルな基盤に成長したWebを,コンピュータがその情報コンテンツの意味内容を把握できるようにして,検索・マイニング・編集・組織化等の意味に立ち入る操作を可能にする次世代知能化Web基盤に向けた研究開発を進めた.具体的には,メタデータ記述を中心とするSemantic Webとは異なり,我が国発の技術として我々が中心でW3Cで国際標準化を行っている.自然言語テキストコンテンツが表す概念意味の共通的記述言語であるCDL(Concept Description Language)に関する研究を進めた.行った研究開発の第一は,自然言語テキストからCDLへの変換に関し,単語エンティティ間の関係を識別するのに適切な素性を定め,コーパスを基にした機械学習手法により,単語エンティティ間のCDL関係子(主として意味役割)の識別法を研究開発した.全自動機械翻訳が困難であるのと同様に,テキストからCDLへの全自動変換も困難であるので,並行して人の負担の少ない半自動変換を目指し,語義(word sense)の人手による選択と決定を介して,CDLへ変換するアプローチについて検討し,その初期版インタフェースの開発を行った. CDLは単語エンティティ間を関係識別子で結んで表すことをベースとしているが,関連研究として単語エンティティ対の類似性をWeb検索エンジンの結果を利用して計算する手法を考案,開発した.これは分布仮説(単語及び単語対はそれらが出現する周辺文脈が類似していると近い意味を表すという説)に基づいている.この研究成果は,2009年4月のWWW(Web技術関係で最も権威ある国際会議)にフルペーパーとして採録され,国際的に高い評価を得た.
|