2005 Fiscal Year Annual Research Report
分かり易さ向上のためのテキストコンテンツ変換に関する研究
Project/Area Number |
16016215
|
Research Institution | The University of Tokyo |
Principal Investigator |
中川 裕志 東京大学, 情報基盤センター, 教授 (20134893)
|
Co-Investigator(Kenkyū-buntansha) |
黒橋 禎夫 東京大学, 情報理工学研究科, 助教授 (50263108)
田中 久美子 東京大学, 情報理工学研究科, 助教授 (10323528)
吉田 稔 東京大学, 情報基盤センター, 助手 (40361688)
清田 陽司 東京大学, 情報基盤センター, 助手 (10401316)
|
Keywords | 分かり易さ / WWW / 情報検索 / 言い換え / 情報抽出 / 自然言語処理 / カタカナ / 異表記 |
Research Abstract |
本年度の研究では,特定領域研究初年度から続けて収集しているWeb新聞記事と携帯端末向け新聞記事の対応付けコーパスを対象にし,携帯端末向け新聞記事で頻繁に使われる短縮された簡潔な表現をWeb新聞記事から生成するための言い換えパターンの抽出の研究を進展させた. Step:1 携帯文の文末表現(2形態素以内で意味のとれる表現)の候補集合の作成 Step:2 Step1の候補集合の表現を文末に含む携帯文とそれに対応するWeb文集合を抽出 Step:3 Step2で作成した各Web文集合において,形態素解析した結果を文末からの形態素列マッチングによって、言い換えパターンを抽出した。 Step:4 Step3の結果を形態素列sのスコア:W(s)として次の式を用いた. W(s)=BackBranch(s)×頻度(s)×log(長さ(s)-1) BackBranch(s)はsの直ぐ左に接続する形態素の種類数,長さ(s)はsを構成する形態素数である. この結果、上位200位程度の順位までの表現に対する言い換えでスコアW(s)が第1位のものは,70%程度の正解率、上位3位までの言い換えでは50%強の正解率の平均である.昨年の結果では,サ変名詞の上位10位までの言い換えは90%に近い正解率であり,100位までみると80%強の正解率であった.また,700位程度までは50%の正解率であるが,それ以降,正解率は漸減する.この結果,我々が使用した3年間にわたって収集した88333文対のデータで機械的に取り出せ,スクリーニングにかかる人手が小さい言い換え候補は,大雑把に言って1000種類程度の文末表現に対応するものと考えられる. なお、これ以外にもカタカナ異表記の自動抽出、Webからの用例検索システム、図書抄録の縮約方式、XML文書への情報ハイディングなどの研究を行い、成果を得た。
|
Research Products
(6 results)