2003 Fiscal Year Annual Research Report
分かり易さ向上のためのテキストコンテンツ変換に関する研究
Project/Area Number |
15017217
|
Research Institution | The University of Tokyo |
Principal Investigator |
中川 裕志 東京大学, 情報基盤センター, 教授 (20134893)
|
Co-Investigator(Kenkyū-buntansha) |
吉田 稔 東京大学, 情報基盤センター, 助手 (40361688)
田中 久美子(石井 久美子) 東京大学, 情報基盤センター, 助教授 (10323528)
黒橋 禎夫 東京大学, 大学院・情報理工学系研究科, 助教授 (50263108)
|
Keywords | 画像・文章・音声等認識 / 情報基礎 / 人工知能 / ユーザインタフェース / ディレクトリ情報検索 |
Research Abstract |
この研究では,Web新聞記事と携帯端末向け新聞記事の対応付けコーパスを対象に次の研究を行った。 (1)まず携帯記事の文とWeb記事の記事対応付けを行い、サンプル調査では100%の精度で対応付けできる方法を用いて記事対応をつけた。次に携帯記事とWeb記事における文同士の対応を、出現する名詞の一致度に着目する方法で行い、93%の精度で対応付けることに成功した。この結果、88,333組の文対応コーパスを抽出した。 (2)上記のコーパスを用いて帯端末向け新聞記事で頻繁に使われる短縮された簡潔な表現をWeb新聞記事から生成するための言い換えパターンの抽出を行った。本年度は特に携帯記事の文末での出現頻度が38%の割合であるサ変名詞で終了する名詞止めがWeb記事においてどのような表現であるかを抽出する言い換え抽出を行った。サンプルデータでは抽出された言い換えのうち最も順位の高いもので90%、3位までの言い換えで60%の精度で抽出できることが分かった。この言い換えデータは記事に要約や縮約を自動化するための言語資源として使える。 (3)昨年度から続けているWeb記事の自動要約を引き続き行った。本年度はWeb記事と携帯記事の対応コーパスを教師データとしてSVMを用いた学習によって削除する部分を決める方法を実験した。この結果、いくつかの分野で精度の向上が見られた。 (4)Web上のデータを利用する以下の多言語用例検索ツール:Kiwiシステムについて引き続き改善、評価実験を行った。日英仏の3言語でこのシステムを使って用例検索する方法と検索エンジンを使う方法を比較し、正解率で30%程度の上昇が見られることが分かった。
|
Research Products
(6 results)
-
[Publications] 中川裕志, 滝澤修, 井上信吾: "ドキュメントへのインフォメーションハイディング"情報処理. 44,3. 248-253 (2003)
-
[Publications] Hiroshi Nakagawa, Tastunori Mori: "Automaic Term Recognition based on Statistics of Compound Nouns and their Components"Terminology. 9,2,. 201-219 (2003)
-
[Publications] Takashi Masuyama, Hiroshi Nakagawa: "Two Step POS Selection for SVM based Text Categorization"IEICE Transaction. E,86. 15-21 (2004)
-
[Publications] 増田英孝, 塚本修一, 安富大輔, 中川裕志: "HTMLの表形式データの構造認識と携帯端末表示への応用"情報処理学会論文誌:データベース. TOD,19. 23-32 (2003)
-
[Publications] Takeshi Masuyama, Hiroshi Nakagawa: "Cascaded Feature Selection in SVM Text Categorization"4th CICLing-2003 (Lecture Note in Computer Science). 588-591 (2003)
-
[Publications] Kumiko Tanaka-Ishii, Masato Yamamoto, Hiroshi Nakagawa: "Kiwi: A Multilingual Usage Consultation Tool based on Internet Searching"Proc. of the Interactive Posters/Demo, ACL-03. 105-108 (2003)