• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

分かり易さ向上のためのテキストコンテンツ変換に関する研究

研究課題

研究課題/領域番号 16016215
研究種目

特定領域研究

配分区分補助金
審査区分 理工系
研究機関東京大学

研究代表者

中川 裕志  東京大学, 情報基盤センター, 教授 (20134893)

研究分担者 黒橋 禎夫  東京大学, 情報理工学研究科, 助教授 (50263108)
田中 久美子  東京大学, 情報理工学研究科, 助教授 (10323528)
吉田 稔  東京大学, 情報基盤センター, 助手 (40361688)
清田 陽司  東京大学, 情報基盤センター, 助手 (10401316)
研究期間 (年度) 2004 – 2005
研究課題ステータス 完了 (2005年度)
配分額 *注記
8,700千円 (直接経費: 8,700千円)
2005年度: 4,500千円 (直接経費: 4,500千円)
2004年度: 4,200千円 (直接経費: 4,200千円)
キーワード分かり易さ / WWW / 情報検索 / 言い換え / 情報抽出 / 自然言語処理 / カタカナ / 異表記 / 携帯端末 / 検索エンジン / 用例抽出 / 多言語 / コーパス / テキスト
研究概要

本年度の研究では,特定領域研究初年度から続けて収集しているWeb新聞記事と携帯端末向け新聞記事の対応付けコーパスを対象にし,携帯端末向け新聞記事で頻繁に使われる短縮された簡潔な表現をWeb新聞記事から生成するための言い換えパターンの抽出の研究を進展させた.
Step:1 携帯文の文末表現(2形態素以内で意味のとれる表現)の候補集合の作成
Step:2 Step1の候補集合の表現を文末に含む携帯文とそれに対応するWeb文集合を抽出
Step:3 Step2で作成した各Web文集合において,形態素解析した結果を文末からの形態素列マッチングによって、言い換えパターンを抽出した。
Step:4 Step3の結果を形態素列sのスコア:W(s)として次の式を用いた.
W(s)=BackBranch(s)×頻度(s)×log(長さ(s)-1)
BackBranch(s)はsの直ぐ左に接続する形態素の種類数,長さ(s)はsを構成する形態素数である.
この結果、上位200位程度の順位までの表現に対する言い換えでスコアW(s)が第1位のものは,70%程度の正解率、上位3位までの言い換えでは50%強の正解率の平均である.昨年の結果では,サ変名詞の上位10位までの言い換えは90%に近い正解率であり,100位までみると80%強の正解率であった.また,700位程度までは50%の正解率であるが,それ以降,正解率は漸減する.この結果,我々が使用した3年間にわたって収集した88333文対のデータで機械的に取り出せ,スクリーニングにかかる人手が小さい言い換え候補は,大雑把に言って1000種類程度の文末表現に対応するものと考えられる.
なお、これ以外にもカタカナ異表記の自動抽出、Webからの用例検索システム、図書抄録の縮約方式、XML文書への情報ハイディングなどの研究を行い、成果を得た。

報告書

(2件)
  • 2005 実績報告書
  • 2004 実績報告書
  • 研究成果

    (12件)

すべて 2005 2004

すべて 雑誌論文 (12件)

  • [雑誌論文] Extracting Paraphrases of Japanese Action Word of Sentence Ending Part From Web and Mobile News Articles2005

    • 著者名/発表者名
      Hiroshi Nakagawa, Hidetaka Masuda
    • 雑誌名

      AIRS2004, Lecture Note of Computer Science, (Springer-Verlag) 3411

      ページ: 94-105

    • 関連する報告書
      2005 実績報告書
  • [雑誌論文] A Multilingual Usage Consultation Tool based on Internet Searching---More than search engine, Less than QA2005

    • 著者名/発表者名
      Kumiko Tanaka-Ishii, Hiroshi Nakagawa
    • 雑誌名

      The 14th International World Wide Web Conference WWW2005

      ページ: 363-371

    • 関連する報告書
      2005 実績報告書
  • [雑誌論文] Webと携帯端末向けの新聞記事の対応コーパスからの文末言い換え抽出2005

    • 著者名/発表者名
      岩越守孝, 増田英孝, 中川裕志
    • 雑誌名

      自然言語処理 12(4)

      ページ: 157-184

    • NAID

      130004291863

    • 関連する報告書
      2005 実績報告書
  • [雑誌論文] Word2003 XML文書への情報ハイディングシステム2005

    • 著者名/発表者名
      北野宗之, 増田英孝, 中川裕志
    • 雑誌名

      電子情報通信学会 情報セキュリティ研究会、情報処理学会CSEC研究会 ISEC2005-27, SITE2005-35

      ページ: 205-211

    • NAID

      110003298585

    • 関連する報告書
      2005 実績報告書
  • [雑誌論文] Web-based Acquisition of Japanese Katakana Variants2005

    • 著者名/発表者名
      Takeshi Masuyama, Hiroshi Nakagawa
    • 雑誌名

      The 28th Annual International ACM SIGIR Conference SIGIR2005

      ページ: 338-344

    • 関連する報告書
      2005 実績報告書
  • [雑誌論文] Extracting Paraphrases of Japanese Action Word of Sentence Ending Part From Web and Mobile News Articles2005

    • 著者名/発表者名
      Hiroshi Nakagawa, Hidetaka Masuda
    • 雑誌名

      Lecture Note of Computer Science 3411

      ページ: 94-105

    • 関連する報告書
      2004 実績報告書
  • [雑誌論文] Specification Retrieval - How to Find Attribute-Value Information on the Web2005

    • 著者名/発表者名
      Minoru Yoshida, Hiroshi Nakagawa
    • 雑誌名

      Lecture Note of Computer Science 3248

      ページ: 338-347

    • 関連する報告書
      2004 実績報告書
  • [雑誌論文] 文書頻度と節長を利用した図書概要縮約方式2004

    • 著者名/発表者名
      小峰 恒, 山田 剛一, 絹川 博之, 中川 裕志
    • 雑誌名

      NII Journal Vol.8, pp.23-34, Feb.2004 8

      ページ: 23-34

    • NAID

      110001276080

    • 関連する報告書
      2005 実績報告書
  • [雑誌論文] Terminal Device Oriented Comparable Corpora and its Alignment -- Towards Extracting Paraphrasing Patterns --2004

    • 著者名/発表者名
      Hiroshi Nakagawa, Hideaka Masuda, Dai Sato
    • 雑誌名

      Proceedings of LREC2004

      ページ: 1167-1170

    • 関連する報告書
      2004 実績報告書
  • [雑誌論文] Chinese Term Extraction from Web Pages Based on Compound word Productivity2004

    • 著者名/発表者名
      Hiroshi Nakagawa, Hiroyuki Kojima, Akira Maeda
    • 雑誌名

      ACL2004. Third SIGHAN Workshop on Chinese Language Processing

      ページ: 79-85

    • 関連する報告書
      2004 実績報告書
  • [雑誌論文] Abstract of Abstract : A New Summarizing Method based on Document Frequency and Clause Length2004

    • 著者名/発表者名
      Koichi Yamada, Hisashi Komine, Hiroshi Kinukawa, Hiroshi Nakagawa
    • 雑誌名

      The 8th World Multi-Conference on Systemics, Cybernetics and Informatics 15

      ページ: 56-61

    • 関連する報告書
      2004 実績報告書
  • [雑誌論文] Automatic Construction of Japanese KATAKANA Variant List from Large Corpus2004

    • 著者名/発表者名
      Takeshi Masuyama, Satoshi Sekine, Hiroshi Nakagawa
    • 雑誌名

      Proceedings of the 20th International Conference on Computational Linguistics

      ページ: 1214-1219

    • 関連する報告書
      2004 実績報告書

URL: 

公開日: 2004-04-01   更新日: 2018-03-28  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi