• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2004 Fiscal Year Annual Research Report

分かり易さ向上のためのテキストコンテンツ返還に関する研究

Research Project

Project/Area Number 16016215
Research InstitutionThe University of Tokyo

Principal Investigator

中川 裕志  東京大学, 情報基盤センター, 教授 (20134893)

Co-Investigator(Kenkyū-buntansha) 黒橋 禎夫  東京大学, 情報理工学系研究科, 助教授 (50263108)
田中 久美子  東京大学, 情報基盤センター, 助教授 (10323528)
吉田 稔  東京大学, 情報基盤センター, 助手 (40361688)
Keywords自然言語処理 / 携帯端末 / 言い換え / 検索エンジン / 用例抽出 / 多言語 / コーパス / テキスト
Research Abstract

Web環境の発展,モバイル技術の発展によって,テキスト処理は新しい局面を迎えている.すなわち,計算機にとって大切な意味理解から人間の利用者にとって大切な分かり易いテキストの生成,表示が大きな目的になってきた.この研究では,昨年から引き続き行っている,(1)Webの新聞記事と携帯端末向け新聞記事の対応付けコーパスからの要約のための言い換えパターンの抽出,(2)Webページからの属性,属性値情報の検索,(3)多言語用例抽出の各研究について報告する.
(1)言い換え抽出:既に開発済みの携帯端末向け記事とパソコン端末向け記事の文対応した大量のデータを用いて以下の方法で文末表現の言い換え抽出を行った.
Step:1 携帯文の文末表現(2形態素以内で意味のとれる表現)の候補集合の作成
Step:2 Step1の候補集合の表現を文末に含む携帯文とそれに対応するWeb文集合を抽出
Step:3 Step2で作成した各Web文集合において,文末からの文字列マッチング
その結果、第1位のものは,70%程度の正解率、上位3位までの言い換えでは50%強の正解率の平均を得た。また,700位程度までは50%の正解率であるが,それ以降,正解率は漸減する.この結果,我々が使用した3年間にわたって収集した88333文対のデータで機械的に取り出せ,スクリーニングにかかる人手が小さい言い換え候補は,大雑把に言って1000種類程度の文末表現に対応するものと考えられる.
(2)Web検索:「Webページに掲載されたオブジェクトを検索するシステム」を提案し試作した.具体的には,「人間」「PC」等,ユーザーが探したいカテゴリに対し,「自己紹介」「PCカタログ」等,オブジェクトに関するスペック情報(属性・属性値情報)を載せたページをWWWから検索するタスクと,それに対する有効なアルゴリズムを考案した.
(3)多言語用例検索:Webの検索エンジンの結果を文字列に対するTrie構造化と、後続文字種類数に関する統計処理を行うことによって、部分的に与えた表現を補完する用例を効率的に抽出するシステムを開発した。

  • Research Products

    (6 results)

All 2005 2004

All Journal Article (6 results)

  • [Journal Article] Extracting Paraphrases of Japanese Action Word of Sentence Ending Part From Web and Mobile News Articles2005

    • Author(s)
      Hiroshi Nakagawa, Hidetaka Masuda
    • Journal Title

      Lecture Note of Computer Science 3411

      Pages: 94-105

  • [Journal Article] Specification Retrieval - How to Find Attribute-Value Information on the Web2005

    • Author(s)
      Minoru Yoshida, Hiroshi Nakagawa
    • Journal Title

      Lecture Note of Computer Science 3248

      Pages: 338-347

  • [Journal Article] Terminal Device Oriented Comparable Corpora and its Alignment -- Towards Extracting Paraphrasing Patterns --2004

    • Author(s)
      Hiroshi Nakagawa, Hideaka Masuda, Dai Sato
    • Journal Title

      Proceedings of LREC2004

      Pages: 1167-1170

  • [Journal Article] Chinese Term Extraction from Web Pages Based on Compound word Productivity2004

    • Author(s)
      Hiroshi Nakagawa, Hiroyuki Kojima, Akira Maeda
    • Journal Title

      ACL2004. Third SIGHAN Workshop on Chinese Language Processing

      Pages: 79-85

  • [Journal Article] Abstract of Abstract : A New Summarizing Method based on Document Frequency and Clause Length2004

    • Author(s)
      Koichi Yamada, Hisashi Komine, Hiroshi Kinukawa, Hiroshi Nakagawa
    • Journal Title

      The 8th World Multi-Conference on Systemics, Cybernetics and Informatics 15

      Pages: 56-61

  • [Journal Article] Automatic Construction of Japanese KATAKANA Variant List from Large Corpus2004

    • Author(s)
      Takeshi Masuyama, Satoshi Sekine, Hiroshi Nakagawa
    • Journal Title

      Proceedings of the 20th International Conference on Computational Linguistics

      Pages: 1214-1219

URL: 

Published: 2006-07-12   Modified: 2016-04-21  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi