2004 Fiscal Year Annual Research Report
分かり易さ向上のためのテキストコンテンツ返還に関する研究
Project/Area Number |
16016215
|
Research Institution | The University of Tokyo |
Principal Investigator |
中川 裕志 東京大学, 情報基盤センター, 教授 (20134893)
|
Co-Investigator(Kenkyū-buntansha) |
黒橋 禎夫 東京大学, 情報理工学系研究科, 助教授 (50263108)
田中 久美子 東京大学, 情報基盤センター, 助教授 (10323528)
吉田 稔 東京大学, 情報基盤センター, 助手 (40361688)
|
Keywords | 自然言語処理 / 携帯端末 / 言い換え / 検索エンジン / 用例抽出 / 多言語 / コーパス / テキスト |
Research Abstract |
Web環境の発展,モバイル技術の発展によって,テキスト処理は新しい局面を迎えている.すなわち,計算機にとって大切な意味理解から人間の利用者にとって大切な分かり易いテキストの生成,表示が大きな目的になってきた.この研究では,昨年から引き続き行っている,(1)Webの新聞記事と携帯端末向け新聞記事の対応付けコーパスからの要約のための言い換えパターンの抽出,(2)Webページからの属性,属性値情報の検索,(3)多言語用例抽出の各研究について報告する. (1)言い換え抽出:既に開発済みの携帯端末向け記事とパソコン端末向け記事の文対応した大量のデータを用いて以下の方法で文末表現の言い換え抽出を行った. Step:1 携帯文の文末表現(2形態素以内で意味のとれる表現)の候補集合の作成 Step:2 Step1の候補集合の表現を文末に含む携帯文とそれに対応するWeb文集合を抽出 Step:3 Step2で作成した各Web文集合において,文末からの文字列マッチング その結果、第1位のものは,70%程度の正解率、上位3位までの言い換えでは50%強の正解率の平均を得た。また,700位程度までは50%の正解率であるが,それ以降,正解率は漸減する.この結果,我々が使用した3年間にわたって収集した88333文対のデータで機械的に取り出せ,スクリーニングにかかる人手が小さい言い換え候補は,大雑把に言って1000種類程度の文末表現に対応するものと考えられる. (2)Web検索:「Webページに掲載されたオブジェクトを検索するシステム」を提案し試作した.具体的には,「人間」「PC」等,ユーザーが探したいカテゴリに対し,「自己紹介」「PCカタログ」等,オブジェクトに関するスペック情報(属性・属性値情報)を載せたページをWWWから検索するタスクと,それに対する有効なアルゴリズムを考案した. (3)多言語用例検索:Webの検索エンジンの結果を文字列に対するTrie構造化と、後続文字種類数に関する統計処理を行うことによって、部分的に与えた表現を補完する用例を効率的に抽出するシステムを開発した。
|
Research Products
(6 results)