• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2005 Fiscal Year Annual Research Report

分かり易さ向上のためのテキストコンテンツ変換に関する研究

Research Project

Project/Area Number 16016215
Research InstitutionThe University of Tokyo

Principal Investigator

中川 裕志  東京大学, 情報基盤センター, 教授 (20134893)

Co-Investigator(Kenkyū-buntansha) 黒橋 禎夫  東京大学, 情報理工学研究科, 助教授 (50263108)
田中 久美子  東京大学, 情報理工学研究科, 助教授 (10323528)
吉田 稔  東京大学, 情報基盤センター, 助手 (40361688)
清田 陽司  東京大学, 情報基盤センター, 助手 (10401316)
Keywords分かり易さ / WWW / 情報検索 / 言い換え / 情報抽出 / 自然言語処理 / カタカナ / 異表記
Research Abstract

本年度の研究では,特定領域研究初年度から続けて収集しているWeb新聞記事と携帯端末向け新聞記事の対応付けコーパスを対象にし,携帯端末向け新聞記事で頻繁に使われる短縮された簡潔な表現をWeb新聞記事から生成するための言い換えパターンの抽出の研究を進展させた.
Step:1 携帯文の文末表現(2形態素以内で意味のとれる表現)の候補集合の作成
Step:2 Step1の候補集合の表現を文末に含む携帯文とそれに対応するWeb文集合を抽出
Step:3 Step2で作成した各Web文集合において,形態素解析した結果を文末からの形態素列マッチングによって、言い換えパターンを抽出した。
Step:4 Step3の結果を形態素列sのスコア:W(s)として次の式を用いた.
W(s)=BackBranch(s)×頻度(s)×log(長さ(s)-1)
BackBranch(s)はsの直ぐ左に接続する形態素の種類数,長さ(s)はsを構成する形態素数である.
この結果、上位200位程度の順位までの表現に対する言い換えでスコアW(s)が第1位のものは,70%程度の正解率、上位3位までの言い換えでは50%強の正解率の平均である.昨年の結果では,サ変名詞の上位10位までの言い換えは90%に近い正解率であり,100位までみると80%強の正解率であった.また,700位程度までは50%の正解率であるが,それ以降,正解率は漸減する.この結果,我々が使用した3年間にわたって収集した88333文対のデータで機械的に取り出せ,スクリーニングにかかる人手が小さい言い換え候補は,大雑把に言って1000種類程度の文末表現に対応するものと考えられる.
なお、これ以外にもカタカナ異表記の自動抽出、Webからの用例検索システム、図書抄録の縮約方式、XML文書への情報ハイディングなどの研究を行い、成果を得た。

  • Research Products

    (6 results)

All 2005 2004

All Journal Article (6 results)

  • [Journal Article] Extracting Paraphrases of Japanese Action Word of Sentence Ending Part From Web and Mobile News Articles2005

    • Author(s)
      Hiroshi Nakagawa, Hidetaka Masuda
    • Journal Title

      AIRS2004, Lecture Note of Computer Science, (Springer-Verlag) 3411

      Pages: 94-105

  • [Journal Article] A Multilingual Usage Consultation Tool based on Internet Searching---More than search engine, Less than QA2005

    • Author(s)
      Kumiko Tanaka-Ishii, Hiroshi Nakagawa
    • Journal Title

      The 14th International World Wide Web Conference WWW2005

      Pages: 363-371

  • [Journal Article] Webと携帯端末向けの新聞記事の対応コーパスからの文末言い換え抽出2005

    • Author(s)
      岩越守孝, 増田英孝, 中川裕志
    • Journal Title

      自然言語処理 12(4)

      Pages: 157-184

  • [Journal Article] Word2003 XML文書への情報ハイディングシステム2005

    • Author(s)
      北野宗之, 増田英孝, 中川裕志
    • Journal Title

      電子情報通信学会 情報セキュリティ研究会、情報処理学会CSEC研究会 ISEC2005-27, SITE2005-35

      Pages: 205-211

  • [Journal Article] Web-based Acquisition of Japanese Katakana Variants2005

    • Author(s)
      Takeshi Masuyama, Hiroshi Nakagawa
    • Journal Title

      The 28th Annual International ACM SIGIR Conference SIGIR2005

      Pages: 338-344

  • [Journal Article] 文書頻度と節長を利用した図書概要縮約方式2004

    • Author(s)
      小峰 恒, 山田 剛一, 絹川 博之, 中川 裕志
    • Journal Title

      NII Journal Vol.8, pp.23-34, Feb.2004 8

      Pages: 23-34

URL: 

Published: 2007-04-02   Modified: 2016-04-21  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi