2004 年度実績報告書

分かり易さ向上のためのテキストコンテンツ返還に関する研究

研究課題

研究課題/領域番号	16016215
研究機関	東京大学
研究代表者	中川裕志東京大学, 情報基盤センター, 教授 (20134893)
研究分担者	黒橋禎夫東京大学, 情報理工学系研究科, 助教授 (50263108) 田中久美子東京大学, 情報基盤センター, 助教授 (10323528) 吉田稔東京大学, 情報基盤センター, 助手 (40361688)
キーワード	自然言語処理 / 携帯端末 / 言い換え / 検索エンジン / 用例抽出 / 多言語 / コーパス / テキスト
研究概要	Web環境の発展,モバイル技術の発展によって,テキスト処理は新しい局面を迎えている.すなわち,計算機にとって大切な意味理解から人間の利用者にとって大切な分かり易いテキストの生成,表示が大きな目的になってきた.この研究では,昨年から引き続き行っている,(1)Webの新聞記事と携帯端末向け新聞記事の対応付けコーパスからの要約のための言い換えパターンの抽出,(2)Webページからの属性,属性値情報の検索,(3)多言語用例抽出の各研究について報告する. (1)言い換え抽出:既に開発済みの携帯端末向け記事とパソコン端末向け記事の文対応した大量のデータを用いて以下の方法で文末表現の言い換え抽出を行った. Step:1 携帯文の文末表現(2形態素以内で意味のとれる表現)の候補集合の作成 Step:2 Step1の候補集合の表現を文末に含む携帯文とそれに対応するWeb文集合を抽出 Step:3 Step2で作成した各Web文集合において,文末からの文字列マッチングその結果、第1位のものは,70%程度の正解率、上位3位までの言い換えでは50%強の正解率の平均を得た。また,700位程度までは50%の正解率であるが,それ以降,正解率は漸減する.この結果,我々が使用した3年間にわたって収集した88333文対のデータで機械的に取り出せ,スクリーニングにかかる人手が小さい言い換え候補は,大雑把に言って1000種類程度の文末表現に対応するものと考えられる. (2)Web検索:「Webページに掲載されたオブジェクトを検索するシステム」を提案し試作した.具体的には,「人間」「PC」等,ユーザーが探したいカテゴリに対し,「自己紹介」「PCカタログ」等,オブジェクトに関するスペック情報(属性・属性値情報)を載せたページをWWWから検索するタスクと,それに対する有効なアルゴリズムを考案した. (3)多言語用例検索:Webの検索エンジンの結果を文字列に対するTrie構造化と、後続文字種類数に関する統計処理を行うことによって、部分的に与えた表現を補完する用例を効率的に抽出するシステムを開発した。

研究成果
(6件)

すべて 2005 2004

すべて雑誌論文 (6件)

[雑誌論文] Extracting Paraphrases of Japanese Action Word of Sentence Ending Part From Web and Mobile News Articles2005
- 著者名/発表者名
  Hiroshi Nakagawa, Hidetaka Masuda
- 雑誌名
  
  Lecture Note of Computer Science 3411
  
  ページ: 94-105
[雑誌論文] Specification Retrieval - How to Find Attribute-Value Information on the Web2005
- 著者名/発表者名
  Minoru Yoshida, Hiroshi Nakagawa
- 雑誌名
  
  Lecture Note of Computer Science 3248
  
  ページ: 338-347
[雑誌論文] Terminal Device Oriented Comparable Corpora and its Alignment -- Towards Extracting Paraphrasing Patterns --2004
- 著者名/発表者名
  Hiroshi Nakagawa, Hideaka Masuda, Dai Sato
- 雑誌名
  
  Proceedings of LREC2004
  
  ページ: 1167-1170
[雑誌論文] Chinese Term Extraction from Web Pages Based on Compound word Productivity2004
- 著者名/発表者名
  Hiroshi Nakagawa, Hiroyuki Kojima, Akira Maeda
- 雑誌名
  
  ACL2004. Third SIGHAN Workshop on Chinese Language Processing
  
  ページ: 79-85
[雑誌論文] Abstract of Abstract : A New Summarizing Method based on Document Frequency and Clause Length2004
- 著者名/発表者名
  Koichi Yamada, Hisashi Komine, Hiroshi Kinukawa, Hiroshi Nakagawa
- 雑誌名
  
  The 8th World Multi-Conference on Systemics, Cybernetics and Informatics 15
  
  ページ: 56-61
[雑誌論文] Automatic Construction of Japanese KATAKANA Variant List from Large Corpus2004
- 著者名/発表者名
  Takeshi Masuyama, Satoshi Sekine, Hiroshi Nakagawa
- 雑誌名
  
  Proceedings of the 20th International Conference on Computational Linguistics
  
  ページ: 1214-1219

2004 年度 実績報告書

分かり易さ向上のためのテキストコンテンツ返還に関する研究

研究代表者

中川 裕志 東京大学, 情報基盤センター, 教授 (20134893)

研究成果

[雑誌論文] Extracting Paraphrases of Japanese Action Word of Sentence Ending Part From Web and Mobile News Articles2005

著者名/発表者名

雑誌名

[雑誌論文] Specification Retrieval - How to Find Attribute-Value Information on the Web2005

著者名/発表者名

雑誌名

[雑誌論文] Terminal Device Oriented Comparable Corpora and its Alignment -- Towards Extracting Paraphrasing Patterns --2004

著者名/発表者名

雑誌名

[雑誌論文] Chinese Term Extraction from Web Pages Based on Compound word Productivity2004

著者名/発表者名

雑誌名

[雑誌論文] Abstract of Abstract : A New Summarizing Method based on Document Frequency and Clause Length2004

著者名/発表者名

雑誌名

[雑誌論文] Automatic Construction of Japanese KATAKANA Variant List from Large Corpus2004

著者名/発表者名

雑誌名

2004 年度実績報告書

中川裕志東京大学, 情報基盤センター, 教授 (20134893)