2000 Fiscal Year Annual Research Report
Project/Area Number |
12878058
|
Research Institution | Kyoto University |
Principal Investigator |
佐藤 理史 京都大学, 情報学研究科, 助教授 (30205918)
|
Keywords | 自動編集 / 用語定義 / 情報抽出 / サーチエンジン / World Wide Web |
Research Abstract |
本研究の目的は、ある与えられた用語に対して、(1)その用語が説明されているウェブページを見つけ出し、(2)そのページから用語の説明だけを抜き出して提示するようなシステム、すなわち、ウェブを仮想的な辞書・辞典化するシステムを実現することにある。到達目標として次の3段階を設定して、研究を進めてきた。 第1段階:与えられた用語の説明が書かれているウェブページを集め、用語の説明が書かれている部分を抜き出す。 第2段階:それぞれのページから抜き出された部分を語義毎に整理して提示する。 第3段階:それぞれのページから抜き出された部分を語義毎に統合・編集することにより、ひとまとまりの説明文章を生成する。 本年度の目標は、このうち、第1段階と第2段階を実現することであったが、これを次の方法により達成した。 1.用語を説明する文(用語定義文)を7種類に分類し、それぞれの種類の対してその文型を整理してパターン化した。このパターンを用いることによって、テキスト中に存在する用語定義文を自動的に見つけ出すことが可能となった。 2.用語説明の収集を次の方法で実現した。まず、既存のサーチエンジンを利用して、用語説明が書かれている候補ページを収集する。収集したページに簡単なレイアウト解析を適用して、テキストの段落構造を把握する。その後、上記の用語定義文の判定を適用し、用語定義文を含む1段落を用語説明として抽出する。 3.抽出した用語説明段落が同じ語義であるかを、上位概念やテキストの類似度に基づいて決定する方法を考案した。これにより、収集した用語説明を語義毎にグループ化することが可能となった。 到達目標の第3段階についても予備的な検討を行ったが、これを短期間で実現することは技術的に難しいという結論を得た。来年度は、第1段階、第2段階の精度向上に取り組む予定である。
|
Research Products
(2 results)
-
[Publications] 桜井裕,佐藤理史: "ワールドワイドウェブを利用した用語検索"情報処理学会研究報告(自然言語処理研究会NL-137). 2000・53. 23-29 (2000)
-
[Publications] Satoshi Sato: "Automated Editing of Hypertext Resume from the World Wide Web"Proc.of 2001 Symposium on Applications and the Internet (SAINT-01). 15-22 (2001)