2004 Fiscal Year Annual Research Report

分かり易さ向上のためのテキストコンテンツ返還に関する研究

Research Project

Project/Area Number	16016215
Research Institution	The University of Tokyo
Principal Investigator	中川裕志東京大学, 情報基盤センター, 教授 (20134893)
Co-Investigator(Kenkyū-buntansha)	黒橋禎夫東京大学, 情報理工学系研究科, 助教授 (50263108) 田中久美子東京大学, 情報基盤センター, 助教授 (10323528) 吉田稔東京大学, 情報基盤センター, 助手 (40361688)
Keywords	自然言語処理 / 携帯端末 / 言い換え / 検索エンジン / 用例抽出 / 多言語 / コーパス / テキスト
Research Abstract	Web環境の発展,モバイル技術の発展によって,テキスト処理は新しい局面を迎えている.すなわち,計算機にとって大切な意味理解から人間の利用者にとって大切な分かり易いテキストの生成,表示が大きな目的になってきた.この研究では,昨年から引き続き行っている,(1)Webの新聞記事と携帯端末向け新聞記事の対応付けコーパスからの要約のための言い換えパターンの抽出,(2)Webページからの属性,属性値情報の検索,(3)多言語用例抽出の各研究について報告する. (1)言い換え抽出:既に開発済みの携帯端末向け記事とパソコン端末向け記事の文対応した大量のデータを用いて以下の方法で文末表現の言い換え抽出を行った. Step:1 携帯文の文末表現(2形態素以内で意味のとれる表現)の候補集合の作成 Step:2 Step1の候補集合の表現を文末に含む携帯文とそれに対応するWeb文集合を抽出 Step:3 Step2で作成した各Web文集合において,文末からの文字列マッチングその結果、第1位のものは,70%程度の正解率、上位3位までの言い換えでは50%強の正解率の平均を得た。また,700位程度までは50%の正解率であるが,それ以降,正解率は漸減する.この結果,我々が使用した3年間にわたって収集した88333文対のデータで機械的に取り出せ,スクリーニングにかかる人手が小さい言い換え候補は,大雑把に言って1000種類程度の文末表現に対応するものと考えられる. (2)Web検索:「Webページに掲載されたオブジェクトを検索するシステム」を提案し試作した.具体的には,「人間」「PC」等,ユーザーが探したいカテゴリに対し,「自己紹介」「PCカタログ」等,オブジェクトに関するスペック情報(属性・属性値情報)を載せたページをWWWから検索するタスクと,それに対する有効なアルゴリズムを考案した. (3)多言語用例検索:Webの検索エンジンの結果を文字列に対するTrie構造化と、後続文字種類数に関する統計処理を行うことによって、部分的に与えた表現を補完する用例を効率的に抽出するシステムを開発した。

Research Products
(6 results)

All 2005 2004

All Journal Article (6 results)

[Journal Article] Extracting Paraphrases of Japanese Action Word of Sentence Ending Part From Web and Mobile News Articles2005
- Author(s)
  Hiroshi Nakagawa, Hidetaka Masuda
- Journal Title
  
  Lecture Note of Computer Science 3411
  
  Pages: 94-105
[Journal Article] Specification Retrieval - How to Find Attribute-Value Information on the Web2005
- Author(s)
  Minoru Yoshida, Hiroshi Nakagawa
- Journal Title
  
  Lecture Note of Computer Science 3248
  
  Pages: 338-347
[Journal Article] Terminal Device Oriented Comparable Corpora and its Alignment -- Towards Extracting Paraphrasing Patterns --2004
- Author(s)
  Hiroshi Nakagawa, Hideaka Masuda, Dai Sato
- Journal Title
  
  Proceedings of LREC2004
  
  Pages: 1167-1170
[Journal Article] Chinese Term Extraction from Web Pages Based on Compound word Productivity2004
- Author(s)
  Hiroshi Nakagawa, Hiroyuki Kojima, Akira Maeda
- Journal Title
  
  ACL2004. Third SIGHAN Workshop on Chinese Language Processing
  
  Pages: 79-85
[Journal Article] Abstract of Abstract : A New Summarizing Method based on Document Frequency and Clause Length2004
- Author(s)
  Koichi Yamada, Hisashi Komine, Hiroshi Kinukawa, Hiroshi Nakagawa
- Journal Title
  
  The 8th World Multi-Conference on Systemics, Cybernetics and Informatics 15
  
  Pages: 56-61
[Journal Article] Automatic Construction of Japanese KATAKANA Variant List from Large Corpus2004
- Author(s)
  Takeshi Masuyama, Satoshi Sekine, Hiroshi Nakagawa
- Journal Title
  
  Proceedings of the 20th International Conference on Computational Linguistics
  
  Pages: 1214-1219

2004 Fiscal Year Annual Research Report

分かり易さ向上のためのテキストコンテンツ返還に関する研究

Principal Investigator

中川 裕志 東京大学, 情報基盤センター, 教授 (20134893)

Research Products

[Journal Article] Extracting Paraphrases of Japanese Action Word of Sentence Ending Part From Web and Mobile News Articles2005

Author(s)

Journal Title

[Journal Article] Specification Retrieval - How to Find Attribute-Value Information on the Web2005

Author(s)

Journal Title

[Journal Article] Terminal Device Oriented Comparable Corpora and its Alignment -- Towards Extracting Paraphrasing Patterns --2004

Author(s)

Journal Title

[Journal Article] Chinese Term Extraction from Web Pages Based on Compound word Productivity2004

Author(s)

Journal Title

[Journal Article] Abstract of Abstract : A New Summarizing Method based on Document Frequency and Clause Length2004

Author(s)

Journal Title

[Journal Article] Automatic Construction of Japanese KATAKANA Variant List from Large Corpus2004

Author(s)

Journal Title

中川裕志東京大学, 情報基盤センター, 教授 (20134893)