2001 Fiscal Year Annual Research Report
モバイル環境向けコンテンツ開発のための自然言語処理に関する研究
Project/Area Number |
13224019
|
Research Institution | The University of Tokyo |
Principal Investigator |
中川 裕志 東京大学, 情報基盤センター, 教授 (20134893)
|
Co-Investigator(Kenkyū-buntansha) |
渡部 聡彦 東京大学, 情報基盤センター, 助手 (80313188)
田中 久美子(石井 久美子) 東京大学, 大学院・情報学環, 講師 (10323528)
黒橋 禎夫 東京大学, 情報理工学系研究科, 助教授 (50263108)
|
Keywords | 携帯端末 / 自然言語処理 / iモード / コーパス / 自動要約 / 言い換え / 対応付けコーパス / インターネット |
Research Abstract |
携帯端末の多様化、進化を受けて、携帯端末向けのコンテンツ開発のために既存のテキストコンテンツを自然言語処理によって変換する。特に高圧縮率の自動要約に加え言い換えを加味した処理を行う。具体例としては、名詞句(固有名詞など)の言い換え、構文的言い換え、とりわけ体言止め、助詞止めなどが重要になる。このような処理を実現するためには、要約元の文書と要約ないし言い換え結果を集めたコーパスが必要になる。そのために以下に述べる言語資源の収集をした。 (1)収集:インターネットでPCを想定した新聞記事(1日200記事以上)と、i-モード端末を対象にした新聞記事(1日40記事程度)が毎日発信されている。ただし、i-モード記事は1日で消えてしまう。そこで、これを4月以来、毎日収集した。 (2)対応付け 収集した記事群で1日単位にPC向け記事とi-モード記事の対応付けを行う。この対応付けを行うと、PC記事の言い換え、要約の言語データとしてi-モード記事を対応させる対応付けコーパスができる。i-モード記事中の名詞とPC向け記事中の名詞を調べ、3x(PC記事見出しとi-モード記事の名詞一致数)+(PC記事本文とi-モード記の名詞一致数)の値が35以上の場合を対応が付いたとすることにより、現在までの実験で80%近いi-モード記事を100%の精度で対応付けができた。そこで、この方法で1年分の対応付けコーパスを完成した。 このように収集した対応付けコーパスを利用して形態素解析、構文解析を利用する小規模な要約実験を行い良好な結果を得た。
|
Research Products
(5 results)
-
[Publications] 河原大輔, 黒橋禎夫: "用言と直前の格要素の組を単位とする格フレームの自動構築"自然言語処理. 9-1. 3-20 (2002)
-
[Publications] Hidetaka Masuda, Daisuke Yasutomi, Hiroshi Nakagawa: "How to transform Table in HTML for Displaying on Mobile Terminals"Proc. of NLPRS2001 Workshop on Automatic Paraphrasing. 29-36 (2001)
-
[Publications] Kumiko Tanaka-Ishii, Yusuke Inutsuka, Masato Takeichi: "Personalization of Txet Entry Systems for Mobile Phones"Proc. of NLPRS2001. 177-184 (2001)
-
[Publications] T.Watanabe, Y.Inutsuka, K.Tanaka-Ishii, H.Nakagawa: "Text Entry/Conversion Systems for Mobile Phones"Proc. of NLPRS2001. 781-782 (2001)
-
[Publications] Hiroshi Nakagawa: "Disambiguation of single noun translations extracted from bilingual comparable corpora"Terminology. 7-1. 63-84 (2001)