研究課題/領域番号 |
13224019
|
研究種目 |
特定領域研究(C)
|
配分区分 | 補助金 |
審査区分 |
理工系
|
研究機関 | 東京大学 |
研究代表者 |
中川 裕志 東京大学, 情報基盤センター, 教授 (20134893)
|
研究分担者 |
渡部 聡彦 東京大学, 情報基盤センター, 助手 (80313188)
田中 久美子(石井 久美子) 東京大学, 大学院・情報学環, 講師 (10323528)
黒橋 禎夫 東京大学, 情報理工学系研究科, 助教授 (50263108)
|
研究期間 (年度) |
2001
|
研究課題ステータス |
完了 (2001年度)
|
キーワード | 携帯端末 / 自然言語処理 / iモード / コーパス / 自動要約 / 言い換え / 対応付けコーパス / インターネット |
研究概要 |
携帯端末の多様化、進化を受けて、携帯端末向けのコンテンツ開発のために既存のテキストコンテンツを自然言語処理によって変換する。特に高圧縮率の自動要約に加え言い換えを加味した処理を行う。具体例としては、名詞句(固有名詞など)の言い換え、構文的言い換え、とりわけ体言止め、助詞止めなどが重要になる。このような処理を実現するためには、要約元の文書と要約ないし言い換え結果を集めたコーパスが必要になる。そのために以下に述べる言語資源の収集をした。 (1)収集:インターネットでPCを想定した新聞記事(1日200記事以上)と、i-モード端末を対象にした新聞記事(1日40記事程度)が毎日発信されている。ただし、i-モード記事は1日で消えてしまう。そこで、これを4月以来、毎日収集した。 (2)対応付け 収集した記事群で1日単位にPC向け記事とi-モード記事の対応付けを行う。この対応付けを行うと、PC記事の言い換え、要約の言語データとしてi-モード記事を対応させる対応付けコーパスができる。i-モード記事中の名詞とPC向け記事中の名詞を調べ、3x(PC記事見出しとi-モード記事の名詞一致数)+(PC記事本文とi-モード記の名詞一致数)の値が35以上の場合を対応が付いたとすることにより、現在までの実験で80%近いi-モード記事を100%の精度で対応付けができた。そこで、この方法で1年分の対応付けコーパスを完成した。 このように収集した対応付けコーパスを利用して形態素解析、構文解析を利用する小規模な要約実験を行い良好な結果を得た。
|