分かり易さ向上のためのテキストコンテンツ変換に関する研究

研究課題

研究課題/領域番号	15017217
研究種目	特定領域研究
配分区分	補助金
審査区分	理工系
研究機関	東京大学
研究代表者	中川裕志東京大学, 情報基盤センター, 教授 (20134893)
研究分担者	吉田稔東京大学, 情報基盤センター, 助手 (40361688) 田中久美子(石井久美子) 東京大学, 情報基盤センター, 助教授 (10323528) 黒橋禎夫東京大学, 大学院・情報理工学系研究科, 助教授 (50263108)
研究期間 (年度)	2003
研究課題ステータス	完了 (2003年度)
配分額 *注記	5,000千円 (直接経費: 5,000千円) 2003年度: 5,000千円 (直接経費: 5,000千円)
キーワード	画像・文章・音声等認識 / 情報基礎 / 人工知能 / ユーザインタフェース / ディレクトリ情報検索
研究概要	この研究では,Web新聞記事と携帯端末向け新聞記事の対応付けコーパスを対象に次の研究を行った。 (1)まず携帯記事の文とWeb記事の記事対応付けを行い、サンプル調査では100%の精度で対応付けできる方法を用いて記事対応をつけた。次に携帯記事とWeb記事における文同士の対応を、出現する名詞の一致度に着目する方法で行い、93%の精度で対応付けることに成功した。この結果、88,333組の文対応コーパスを抽出した。 (2)上記のコーパスを用いて帯端末向け新聞記事で頻繁に使われる短縮された簡潔な表現をWeb新聞記事から生成するための言い換えパターンの抽出を行った。本年度は特に携帯記事の文末での出現頻度が38%の割合であるサ変名詞で終了する名詞止めがWeb記事においてどのような表現であるかを抽出する言い換え抽出を行った。サンプルデータでは抽出された言い換えのうち最も順位の高いもので90%、3位までの言い換えで60%の精度で抽出できることが分かった。この言い換えデータは記事に要約や縮約を自動化するための言語資源として使える。 (3)昨年度から続けているWeb記事の自動要約を引き続き行った。本年度はWeb記事と携帯記事の対応コーパスを教師データとしてSVMを用いた学習によって削除する部分を決める方法を実験した。この結果、いくつかの分野で精度の向上が見られた。 (4)Web上のデータを利用する以下の多言語用例検索ツール:Kiwiシステムについて引き続き改善、評価実験を行った。日英仏の3言語でこのシステムを使って用例検索する方法と検索エンジンを使う方法を比較し、正解率で30%程度の上昇が見られることが分かった。

報告書

(1件)

2003 実績報告書

研究成果
(6件)

すべてその他

すべて文献書誌 (6件)

[文献書誌] 中川裕志, 滝澤修, 井上信吾: "ドキュメントへのインフォメーションハイディング"情報処理. 44,3. 248-253 (2003)
- 関連する報告書
  2003 実績報告書
[文献書誌] Hiroshi Nakagawa, Tastunori Mori: "Automaic Term Recognition based on Statistics of Compound Nouns and their Components"Terminology. 9,2,. 201-219 (2003)
- 関連する報告書
  2003 実績報告書
[文献書誌] Takashi Masuyama, Hiroshi Nakagawa: "Two Step POS Selection for SVM based Text Categorization"IEICE Transaction. E,86. 15-21 (2004)
- 関連する報告書
  2003 実績報告書
[文献書誌] 増田英孝, 塚本修一, 安富大輔, 中川裕志: "HTMLの表形式データの構造認識と携帯端末表示への応用"情報処理学会論文誌:データベース. TOD,19. 23-32 (2003)
- 関連する報告書
  2003 実績報告書
[文献書誌] Takeshi Masuyama, Hiroshi Nakagawa: "Cascaded Feature Selection in SVM Text Categorization"4th CICLing-2003 (Lecture Note in Computer Science). 588-591 (2003)
- 関連する報告書
  2003 実績報告書
[文献書誌] Kumiko Tanaka-Ishii, Masato Yamamoto, Hiroshi Nakagawa: "Kiwi: A Multilingual Usage Consultation Tool based on Internet Searching"Proc. of the Interactive Posters/Demo, ACL-03. 105-108 (2003)
- 関連する報告書
  2003 実績報告書

分かり易さ向上のためのテキストコンテンツ変換に関する研究

研究代表者

中川 裕志 東京大学, 情報基盤センター, 教授 (20134893)

5,000千円 (直接経費: 5,000千円)

報告書

研究成果

[文献書誌] 中川裕志, 滝澤修, 井上信吾: "ドキュメントへのインフォメーションハイディング"情報処理. 44,3. 248-253 (2003)

関連する報告書

[文献書誌] Hiroshi Nakagawa, Tastunori Mori: "Automaic Term Recognition based on Statistics of Compound Nouns and their Components"Terminology. 9,2,. 201-219 (2003)

関連する報告書

[文献書誌] Takashi Masuyama, Hiroshi Nakagawa: "Two Step POS Selection for SVM based Text Categorization"IEICE Transaction. E,86. 15-21 (2004)

関連する報告書

[文献書誌] 増田英孝, 塚本修一, 安富大輔, 中川裕志: "HTMLの表形式データの構造認識と携帯端末表示への応用"情報処理学会論文誌:データベース. TOD,19. 23-32 (2003)

関連する報告書

[文献書誌] Takeshi Masuyama, Hiroshi Nakagawa: "Cascaded Feature Selection in SVM Text Categorization"4th CICLing-2003 (Lecture Note in Computer Science). 588-591 (2003)

関連する報告書

[文献書誌] Kumiko Tanaka-Ishii, Masato Yamamoto, Hiroshi Nakagawa: "Kiwi: A Multilingual Usage Consultation Tool based on Internet Searching"Proc. of the Interactive Posters/Demo, ACL-03. 105-108 (2003)

関連する報告書

中川裕志東京大学, 情報基盤センター, 教授 (20134893)