モバイル環境向けコンテンツ開発のための自然言語処理に関する研究
Project/Area Number |
13224019
|
Research Category |
Grant-in-Aid for Scientific Research on Priority Areas (C)
|
Allocation Type | Single-year Grants |
Review Section |
Science and Engineering
|
Research Institution | The University of Tokyo |
Principal Investigator |
中川 裕志 東京大学, 情報基盤センター, 教授 (20134893)
|
Co-Investigator(Kenkyū-buntansha) |
渡部 聡彦 東京大学, 情報基盤センター, 助手 (80313188)
田中 久美子(石井 久美子) 東京大学, 大学院・情報学環, 講師 (10323528)
黒橋 禎夫 東京大学, 情報理工学系研究科, 助教授 (50263108)
|
Project Period (FY) |
2001
|
Project Status |
Completed (Fiscal Year 2001)
|
Keywords | 携帯端末 / 自然言語処理 / iモード / コーパス / 自動要約 / 言い換え / 対応付けコーパス / インターネット |
Research Abstract |
携帯端末の多様化、進化を受けて、携帯端末向けのコンテンツ開発のために既存のテキストコンテンツを自然言語処理によって変換する。特に高圧縮率の自動要約に加え言い換えを加味した処理を行う。具体例としては、名詞句(固有名詞など)の言い換え、構文的言い換え、とりわけ体言止め、助詞止めなどが重要になる。このような処理を実現するためには、要約元の文書と要約ないし言い換え結果を集めたコーパスが必要になる。そのために以下に述べる言語資源の収集をした。 (1)収集:インターネットでPCを想定した新聞記事(1日200記事以上)と、i-モード端末を対象にした新聞記事(1日40記事程度)が毎日発信されている。ただし、i-モード記事は1日で消えてしまう。そこで、これを4月以来、毎日収集した。 (2)対応付け 収集した記事群で1日単位にPC向け記事とi-モード記事の対応付けを行う。この対応付けを行うと、PC記事の言い換え、要約の言語データとしてi-モード記事を対応させる対応付けコーパスができる。i-モード記事中の名詞とPC向け記事中の名詞を調べ、3x(PC記事見出しとi-モード記事の名詞一致数)+(PC記事本文とi-モード記の名詞一致数)の値が35以上の場合を対応が付いたとすることにより、現在までの実験で80%近いi-モード記事を100%の精度で対応付けができた。そこで、この方法で1年分の対応付けコーパスを完成した。 このように収集した対応付けコーパスを利用して形態素解析、構文解析を利用する小規模な要約実験を行い良好な結果を得た。
|
Report
(1 results)
Research Products
(5 results)