• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

分かり易さ向上のためのテキストコンテンツ変換に関する研究

Research Project

Project/Area Number 16016215
Research Category

Grant-in-Aid for Scientific Research on Priority Areas

Allocation TypeSingle-year Grants
Review Section Science and Engineering
Research InstitutionThe University of Tokyo

Principal Investigator

中川 裕志  東京大学, 情報基盤センター, 教授 (20134893)

Co-Investigator(Kenkyū-buntansha) 黒橋 禎夫  東京大学, 情報理工学研究科, 助教授 (50263108)
田中 久美子  東京大学, 情報理工学研究科, 助教授 (10323528)
吉田 稔  東京大学, 情報基盤センター, 助手 (40361688)
清田 陽司  東京大学, 情報基盤センター, 助手 (10401316)
Project Period (FY) 2004 – 2005
Project Status Completed (Fiscal Year 2005)
Budget Amount *help
¥8,700,000 (Direct Cost: ¥8,700,000)
Fiscal Year 2005: ¥4,500,000 (Direct Cost: ¥4,500,000)
Fiscal Year 2004: ¥4,200,000 (Direct Cost: ¥4,200,000)
Keywords分かり易さ / WWW / 情報検索 / 言い換え / 情報抽出 / 自然言語処理 / カタカナ / 異表記 / 携帯端末 / 検索エンジン / 用例抽出 / 多言語 / コーパス / テキスト
Research Abstract

本年度の研究では,特定領域研究初年度から続けて収集しているWeb新聞記事と携帯端末向け新聞記事の対応付けコーパスを対象にし,携帯端末向け新聞記事で頻繁に使われる短縮された簡潔な表現をWeb新聞記事から生成するための言い換えパターンの抽出の研究を進展させた.
Step:1 携帯文の文末表現(2形態素以内で意味のとれる表現)の候補集合の作成
Step:2 Step1の候補集合の表現を文末に含む携帯文とそれに対応するWeb文集合を抽出
Step:3 Step2で作成した各Web文集合において,形態素解析した結果を文末からの形態素列マッチングによって、言い換えパターンを抽出した。
Step:4 Step3の結果を形態素列sのスコア:W(s)として次の式を用いた.
W(s)=BackBranch(s)×頻度(s)×log(長さ(s)-1)
BackBranch(s)はsの直ぐ左に接続する形態素の種類数,長さ(s)はsを構成する形態素数である.
この結果、上位200位程度の順位までの表現に対する言い換えでスコアW(s)が第1位のものは,70%程度の正解率、上位3位までの言い換えでは50%強の正解率の平均である.昨年の結果では,サ変名詞の上位10位までの言い換えは90%に近い正解率であり,100位までみると80%強の正解率であった.また,700位程度までは50%の正解率であるが,それ以降,正解率は漸減する.この結果,我々が使用した3年間にわたって収集した88333文対のデータで機械的に取り出せ,スクリーニングにかかる人手が小さい言い換え候補は,大雑把に言って1000種類程度の文末表現に対応するものと考えられる.
なお、これ以外にもカタカナ異表記の自動抽出、Webからの用例検索システム、図書抄録の縮約方式、XML文書への情報ハイディングなどの研究を行い、成果を得た。

Report

(2 results)
  • 2005 Annual Research Report
  • 2004 Annual Research Report
  • Research Products

    (12 results)

All 2005 2004

All Journal Article (12 results)

  • [Journal Article] Extracting Paraphrases of Japanese Action Word of Sentence Ending Part From Web and Mobile News Articles2005

    • Author(s)
      Hiroshi Nakagawa, Hidetaka Masuda
    • Journal Title

      AIRS2004, Lecture Note of Computer Science, (Springer-Verlag) 3411

      Pages: 94-105

    • Related Report
      2005 Annual Research Report
  • [Journal Article] A Multilingual Usage Consultation Tool based on Internet Searching---More than search engine, Less than QA2005

    • Author(s)
      Kumiko Tanaka-Ishii, Hiroshi Nakagawa
    • Journal Title

      The 14th International World Wide Web Conference WWW2005

      Pages: 363-371

    • Related Report
      2005 Annual Research Report
  • [Journal Article] Webと携帯端末向けの新聞記事の対応コーパスからの文末言い換え抽出2005

    • Author(s)
      岩越守孝, 増田英孝, 中川裕志
    • Journal Title

      自然言語処理 12(4)

      Pages: 157-184

    • NAID

      130004291863

    • Related Report
      2005 Annual Research Report
  • [Journal Article] Word2003 XML文書への情報ハイディングシステム2005

    • Author(s)
      北野宗之, 増田英孝, 中川裕志
    • Journal Title

      電子情報通信学会 情報セキュリティ研究会、情報処理学会CSEC研究会 ISEC2005-27, SITE2005-35

      Pages: 205-211

    • NAID

      110003298585

    • Related Report
      2005 Annual Research Report
  • [Journal Article] Web-based Acquisition of Japanese Katakana Variants2005

    • Author(s)
      Takeshi Masuyama, Hiroshi Nakagawa
    • Journal Title

      The 28th Annual International ACM SIGIR Conference SIGIR2005

      Pages: 338-344

    • Related Report
      2005 Annual Research Report
  • [Journal Article] Extracting Paraphrases of Japanese Action Word of Sentence Ending Part From Web and Mobile News Articles2005

    • Author(s)
      Hiroshi Nakagawa, Hidetaka Masuda
    • Journal Title

      Lecture Note of Computer Science 3411

      Pages: 94-105

    • Related Report
      2004 Annual Research Report
  • [Journal Article] Specification Retrieval - How to Find Attribute-Value Information on the Web2005

    • Author(s)
      Minoru Yoshida, Hiroshi Nakagawa
    • Journal Title

      Lecture Note of Computer Science 3248

      Pages: 338-347

    • Related Report
      2004 Annual Research Report
  • [Journal Article] 文書頻度と節長を利用した図書概要縮約方式2004

    • Author(s)
      小峰 恒, 山田 剛一, 絹川 博之, 中川 裕志
    • Journal Title

      NII Journal Vol.8, pp.23-34, Feb.2004 8

      Pages: 23-34

    • NAID

      110001276080

    • Related Report
      2005 Annual Research Report
  • [Journal Article] Terminal Device Oriented Comparable Corpora and its Alignment -- Towards Extracting Paraphrasing Patterns --2004

    • Author(s)
      Hiroshi Nakagawa, Hideaka Masuda, Dai Sato
    • Journal Title

      Proceedings of LREC2004

      Pages: 1167-1170

    • Related Report
      2004 Annual Research Report
  • [Journal Article] Chinese Term Extraction from Web Pages Based on Compound word Productivity2004

    • Author(s)
      Hiroshi Nakagawa, Hiroyuki Kojima, Akira Maeda
    • Journal Title

      ACL2004. Third SIGHAN Workshop on Chinese Language Processing

      Pages: 79-85

    • Related Report
      2004 Annual Research Report
  • [Journal Article] Abstract of Abstract : A New Summarizing Method based on Document Frequency and Clause Length2004

    • Author(s)
      Koichi Yamada, Hisashi Komine, Hiroshi Kinukawa, Hiroshi Nakagawa
    • Journal Title

      The 8th World Multi-Conference on Systemics, Cybernetics and Informatics 15

      Pages: 56-61

    • Related Report
      2004 Annual Research Report
  • [Journal Article] Automatic Construction of Japanese KATAKANA Variant List from Large Corpus2004

    • Author(s)
      Takeshi Masuyama, Satoshi Sekine, Hiroshi Nakagawa
    • Journal Title

      Proceedings of the 20th International Conference on Computational Linguistics

      Pages: 1214-1219

    • Related Report
      2004 Annual Research Report

URL: 

Published: 2004-04-01   Modified: 2018-03-28  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi