2007 Fiscal Year Annual Research Report
自然言語意味概念の共通的記述言語による次世代知能化Web基盤
Project/Area Number |
19024015
|
Research Institution | The University of Tokyo |
Principal Investigator |
石塚 満 The University of Tokyo, 大学院・情報理工学系研究科, 教授 (50114369)
|
Keywords | Wed知能化 / 自然言語テキスト / 概念表現 / 次世代Web基盤 / 意味計算 / 知識表現 |
Research Abstract |
情報流通と情報蓄積・共有,更には共創のグローバルな基盤に成長したWebを,コンピュータがその情報コンテンツの意味内容を把握できるようにして,検索・マイニング・編集・組織化等の意味に立ち入る操作を可能にする次世代知能化Web基盤に向けた研究開発を推進した.具体的には,メタデータ記述を中心とするSemantic Webとは異なり,我が国発の技術としてW3Cで国際標準化を進めている,自然言語テキストコンテンツの共通的概念意味記述言語CDL(Concept Description Language)に関する研究を進めた.CDLは基本的にはテキスト中の自立語間の意味的関係を記述し,それを階層的に構成して,テキストの表す深層意味には至らない一般に合意が得られるレベルの意味概念を,言語非依存な形式で共通的に記述する.行った研究開発の第一は,自然言語テキストからCDLへの変換法であり,英文についてCDLの45種の関係のうち使用頻度が高い36種の関係記述を,用例に基づいて機械学翌する方法である.第二は,CDL化されたデータを検索するSQL-likeな問合せ言語を設計し,その初期的実装版としてRDF(Resource Description Framework)の問合せ言語SPARQLを利用した実装を行った. Webテキスト処理に関連する研究として,テキストからの感情抽出について,国際的にも高く評価される成果を得た.この効果を実証するために,Webニュースを8種の感情に分類して提示するシステムを開発した.また,Web検索エンジンを利用して関係を持つ単語対であるか否かを判別する手法は,WWWO7(Web技術関係で最も権威ある国際会議)にフルペーパーとして採録され(日本からは2編のみ,日本の大学からは1編のみ),国際的に高い評価を得た.
|