2008 年度実績報告書

構造的言語処理による情報検索基盤技術の構築

計画研究

研究領域	情報爆発時代に向けた新しいIT基盤技術の研究
研究課題/領域番号	19024040
研究機関	京都大学
研究代表者	黒橋禎夫京都大学, 情報学研究科, 教授 (50263108)
研究分担者	柴田知秀京都大学, 情報学研究科, 助教 (70452315)
キーワード	自然言語処理 / 情報検索 / クラスタリング / 述語項構造 / 柔軟マッチング
研究概要	1.格フレームに基づく省略照応解析述語項構造のパターン(格フレーム)を16億文の大規模コーパスから自動学習し, 格フレームとの対応付けの整合性を文書全体で最適化することによって省略照応解析の精度を20%から41%に向上させた. さらに, 格フレームの学習コーパス量と格フレームのカバレージ, 省略照応解析の精度の関係を明らかにし, 学習コーパスの増加によって一層の解析精度向上がみこめることを示した. 2.同義異表記の知識獲得と利用同義異表記を構文木の各語/句に付与したSyngraphとよぶデータ構造で表現し, これによって「最寄り=いちばん近い=もっとも近い」などの同義異表記の組み合わせを扱うことを可能とした. また, この結果を検索のインデックスとして利用し,1億ウェブページを対象として網羅的に同義異表記を処理する検索を可能とした. 3.検索エンジン基盤上でのクラスタリングシステムの構築申請者らが本領域支援班で構築している日本語1億ページの検索エンジンTSUBAKIを基盤として, クエリに対する重要関連表現を検索結果文章中から自動抽出し, 各表現を含む文書を一つのクラスタと考えるラベルベースのクラスタリングシステムを構築した. さらに, 重要関連表現を固有名詞のタイプ, 複合語の語構成などによって整理することにより, クエリの関連項目を鳥瞰図的に眺めることを可能とした.

研究成果
(7件)

すべて 2009 2008

すべて雑誌論文 (3件) (うち査読あり 3件) 学会発表 (4件)

[雑誌論文] キーワード蒸留型クラスタリングによる大規模ウェブ情報の俯瞰2009
- 著者名/発表者名
  馬場康夫, 新里圭司, 柴田知秀, 黒橋禎夫
- 雑誌名
  
  情報処理学会論文誌 Vol.50, No.4
  
  ページ: 1399-1409
- 査読あり
[雑誌論文] 大域的情報を用いた日本語固有表現認識2008
- 著者名/発表者名
  笹野遼平, 黒橋禎夫
- 雑誌名
  
  情報処理学会論文誌 Vol.49, No.11
  
  ページ: 3765-3776
- 査読あり
[雑誌論文] 自動獲得した名詞関係辞書に基づく共参照解析の高度化2008
- 著者名/発表者名
  笹野遼平, 黒橋禎夫
- 雑誌名
  
  自然言語処理 vol.15, No.5
  
  ページ: 99-118
- 査読あり
[学会発表] Online Acquisition of Japanese Unknown Morphemes using Morphological Constraints2008
- 著者名/発表者名
  Yugo Murawaki and Sadao Kurohashi
- 学会等名
  EMNLP 2008 : Conference on Empirical Methods in Natural Language Processing
- 発表場所
  Waikiki, Hawaii
- 年月日
  2008-10-25
[学会発表] Coordination Disambiguation without Any Similarities2008
- 著者名/発表者名
  Daisuke Kawahara and Sadao Kurohashi
- 学会等名
  22nd International Conference on Computational Linguistics
- 発表場所
  Manchester, UK
- 年月日
  2008-08-19
[学会発表] A Fully-Lexicalized Probabilistic Model for Japanese Zero Anaphora Resolution2008
- 著者名/発表者名
  Ryohei Sasano, Daisuke Kawahara and Sadao Kurohashi
- 学会等名
  22nd International Conference on Computational Linguistics
- 発表場所
  Manchester, UK
- 年月日
  2008-08-18
[学会発表] A Large-Scale Web Data Collection as a Natural Language Processing Infrastructure2008
- 著者名/発表者名
  Keiji Shinzato, Daisuke Kawahara, Chikara Hashimoto and Sadao Kurohashi
- 学会等名
  6th International Conference on Language Resources and Evaluation
- 発表場所
  Marrakech, Morocco
- 年月日
  2008-05-29

2008 年度 実績報告書

構造的言語処理による情報検索基盤技術の構築

研究代表者

黒橋 禎夫 京都大学, 情報学研究科, 教授 (50263108)

研究成果

[雑誌論文] キーワード蒸留型クラスタリングによる大規模ウェブ情報の俯瞰2009

著者名/発表者名

雑誌名

[雑誌論文] 大域的情報を用いた日本語固有表現認識2008

著者名/発表者名

雑誌名

[雑誌論文] 自動獲得した名詞関係辞書に基づく共参照解析の高度化2008

著者名/発表者名

雑誌名

[学会発表] Online Acquisition of Japanese Unknown Morphemes using Morphological Constraints2008

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Coordination Disambiguation without Any Similarities2008

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] A Fully-Lexicalized Probabilistic Model for Japanese Zero Anaphora Resolution2008

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] A Large-Scale Web Data Collection as a Natural Language Processing Infrastructure2008

著者名/発表者名

学会等名

発表場所

年月日

2008 年度実績報告書

黒橋禎夫京都大学, 情報学研究科, 教授 (50263108)