分かり易さ向上のためのテキストコンテンツ変換に関する研究

Research Project

Project/Area Number	15017217
Research Category	Grant-in-Aid for Scientific Research on Priority Areas
Allocation Type	Single-year Grants
Review Section	Science and Engineering
Research Institution	The University of Tokyo
Principal Investigator	中川裕志東京大学, 情報基盤センター, 教授 (20134893)
Co-Investigator(Kenkyū-buntansha)	吉田稔東京大学, 情報基盤センター, 助手 (40361688) 田中久美子(石井久美子) 東京大学, 情報基盤センター, 助教授 (10323528) 黒橋禎夫東京大学, 大学院・情報理工学系研究科, 助教授 (50263108)
Project Period (FY)	2003
Project Status	Completed (Fiscal Year 2003)
Budget Amount *help	¥5,000,000 (Direct Cost: ¥5,000,000) Fiscal Year 2003: ¥5,000,000 (Direct Cost: ¥5,000,000)
Keywords	画像・文章・音声等認識 / 情報基礎 / 人工知能 / ユーザインタフェース / ディレクトリ情報検索
Research Abstract	この研究では,Web新聞記事と携帯端末向け新聞記事の対応付けコーパスを対象に次の研究を行った。 (1)まず携帯記事の文とWeb記事の記事対応付けを行い、サンプル調査では100%の精度で対応付けできる方法を用いて記事対応をつけた。次に携帯記事とWeb記事における文同士の対応を、出現する名詞の一致度に着目する方法で行い、93%の精度で対応付けることに成功した。この結果、88,333組の文対応コーパスを抽出した。 (2)上記のコーパスを用いて帯端末向け新聞記事で頻繁に使われる短縮された簡潔な表現をWeb新聞記事から生成するための言い換えパターンの抽出を行った。本年度は特に携帯記事の文末での出現頻度が38%の割合であるサ変名詞で終了する名詞止めがWeb記事においてどのような表現であるかを抽出する言い換え抽出を行った。サンプルデータでは抽出された言い換えのうち最も順位の高いもので90%、3位までの言い換えで60%の精度で抽出できることが分かった。この言い換えデータは記事に要約や縮約を自動化するための言語資源として使える。 (3)昨年度から続けているWeb記事の自動要約を引き続き行った。本年度はWeb記事と携帯記事の対応コーパスを教師データとしてSVMを用いた学習によって削除する部分を決める方法を実験した。この結果、いくつかの分野で精度の向上が見られた。 (4)Web上のデータを利用する以下の多言語用例検索ツール:Kiwiシステムについて引き続き改善、評価実験を行った。日英仏の3言語でこのシステムを使って用例検索する方法と検索エンジンを使う方法を比較し、正解率で30%程度の上昇が見られることが分かった。

Report

(1 results)

2003 Annual Research Report

Research Products
(6 results)

All Other

All Publications (6 results)

[Publications] 中川裕志, 滝澤修, 井上信吾: "ドキュメントへのインフォメーションハイディング"情報処理. 44,3. 248-253 (2003)
- Related Report
  2003 Annual Research Report
[Publications] Hiroshi Nakagawa, Tastunori Mori: "Automaic Term Recognition based on Statistics of Compound Nouns and their Components"Terminology. 9,2,. 201-219 (2003)
- Related Report
  2003 Annual Research Report
[Publications] Takashi Masuyama, Hiroshi Nakagawa: "Two Step POS Selection for SVM based Text Categorization"IEICE Transaction. E,86. 15-21 (2004)
- Related Report
  2003 Annual Research Report
[Publications] 増田英孝, 塚本修一, 安富大輔, 中川裕志: "HTMLの表形式データの構造認識と携帯端末表示への応用"情報処理学会論文誌:データベース. TOD,19. 23-32 (2003)
- Related Report
  2003 Annual Research Report
[Publications] Takeshi Masuyama, Hiroshi Nakagawa: "Cascaded Feature Selection in SVM Text Categorization"4th CICLing-2003 (Lecture Note in Computer Science). 588-591 (2003)
- Related Report
  2003 Annual Research Report
[Publications] Kumiko Tanaka-Ishii, Masato Yamamoto, Hiroshi Nakagawa: "Kiwi: A Multilingual Usage Consultation Tool based on Internet Searching"Proc. of the Interactive Posters/Demo, ACL-03. 105-108 (2003)
- Related Report
  2003 Annual Research Report

分かり易さ向上のためのテキストコンテンツ変換に関する研究

Principal Investigator

中川 裕志 東京大学, 情報基盤センター, 教授 (20134893)

¥5,000,000 (Direct Cost: ¥5,000,000)

Report

Research Products

[Publications] 中川裕志, 滝澤修, 井上信吾: "ドキュメントへのインフォメーションハイディング"情報処理. 44,3. 248-253 (2003)

Related Report

[Publications] Hiroshi Nakagawa, Tastunori Mori: "Automaic Term Recognition based on Statistics of Compound Nouns and their Components"Terminology. 9,2,. 201-219 (2003)

Related Report

[Publications] Takashi Masuyama, Hiroshi Nakagawa: "Two Step POS Selection for SVM based Text Categorization"IEICE Transaction. E,86. 15-21 (2004)

Related Report

[Publications] 増田英孝, 塚本修一, 安富大輔, 中川裕志: "HTMLの表形式データの構造認識と携帯端末表示への応用"情報処理学会論文誌:データベース. TOD,19. 23-32 (2003)

Related Report

[Publications] Takeshi Masuyama, Hiroshi Nakagawa: "Cascaded Feature Selection in SVM Text Categorization"4th CICLing-2003 (Lecture Note in Computer Science). 588-591 (2003)

Related Report

[Publications] Kumiko Tanaka-Ishii, Masato Yamamoto, Hiroshi Nakagawa: "Kiwi: A Multilingual Usage Consultation Tool based on Internet Searching"Proc. of the Interactive Posters/Demo, ACL-03. 105-108 (2003)

Related Report

中川裕志東京大学, 情報基盤センター, 教授 (20134893)