• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2009 年度 実績報告書

構造的言語処理による情報検索基盤技術の構築

計画研究

研究領域情報爆発時代に向けた新しいIT基盤技術の研究
研究課題/領域番号 19024040
研究機関京都大学

研究代表者

黒橋 禎夫  京都大学, 情報学研究科, 教授 (50263108)

研究分担者 柴田 知秀  京都大学, 情報学研究科, 助教 (70452315)
キーワード自然言語処理 / 情報検索 / クラスタリング / 述語項構造 / 柔軟マッチング
研究概要

1) 形態論的制約を用いたオンライン未知語獲得
情報を表現・伝達する最小単位は語であり,特に日本語のように分かち書きされない言語においては語の認識が計算機による言語処理の出発点となる.一方,ウェブには森羅万象に関するテキストが存在し,口語的表現,創造的表現,新語などが常に生産されており,その動的認識が重要となる.そこで,形態論的制約,すなわち,ある品詞の語がどのような後続文字列とともに出現するかをあらかじめ学習しておき,これを用いて少数の出現から動的に未知語を獲得する手法を考案し,実験によりその有効性を確認した
2) 同一文抽出に基づく類似ページの検出と分類
ウェブを計算機のための知識獲得の源泉とする場合も,ウェブの情報を人間のために整理・組織化する場合にも,ウェブにおける情報のコピーの取り扱いが重要な問題となる.そこで,1億規模のウェブアーカイブに対して,ミラーページ,引用ページ,スパムページ,盗作ページなどを,文の重複率,リンク,URL類似度などの手がかりから検出・分類する手法を考案した.
3) PLSIを用いたウェブ検索結果の要約
検索結果をリスト形式で提示する既存の検索エンジンは,誘導型のクエリに対しては有効であるが,調査型のクエリに対しては満足な結果を得るのが難しい.そこで,PLSIによって検索結果をサブトピックに分割し,各サブトピックの内容を網羅的に表す要約文を選択・表示するシステムを構築し,ユーザ評価によってその有効性を確認した.

  • 研究成果

    (6件)

すべて 2010 2009

すべて 雑誌論文 (4件) (うち査読あり 4件) 学会発表 (2件)

  • [雑誌論文] 形態論的制約を用いたオンライン未知語獲得2010

    • 著者名/発表者名
      村脇有吾, 黒橋禎夫
    • 雑誌名

      自然言語処理 17

      ページ: 55-75

    • 査読あり
  • [雑誌論文] 同一文抽出に基づく類似ページの検出と分類2010

    • 著者名/発表者名
      柴田知秀, 姜ナウン, 黒橋禎夫
    • 雑誌名

      人工知能学会論文誌 25

      ページ: 224-232

    • 査読あり
  • [雑誌論文] キーワード蒸留型クラスタリングによる大規模ウェブ情報の俯瞰2009

    • 著者名/発表者名
      馬場康夫, 新里圭司, 柴田知秀, 黒橋禎夫
    • 雑誌名

      情報処理学会論文誌 50

      ページ: 1399-1409

    • 査読あり
  • [雑誌論文] 二段階の機械学習を用いたボトムアップ型の固有表現認識2009

    • 著者名/発表者名
      船山弘孝, 柴田知秀, 黒橋禎夫
    • 雑誌名

      第8回情報科学技術フォーラム 第2分冊

      ページ: 19-26

    • 査読あり
  • [学会発表] A Probabilistic Model for Associative Anaphora Resolution2009

    • 著者名/発表者名
      Ryohei Sasano, Sadao Kurohashi
    • 学会等名
      Conference on Empirical Methods in Natural Language Processing
    • 発表場所
      Singapore, Singapore
    • 年月日
      2009-08-06
  • [学会発表] The Effect of Corpus Size on Case Frame Acquisition for Discourse Analysis2009

    • 著者名/発表者名
      Ryohei Sasano, Daisuke Kawahara.Sadao Kurohashi
    • 学会等名
      North American Chapter of the Association for Computational Linguistics-Human Language Technologies
    • 発表場所
      Boulder, Colorado U.S.A.
    • 年月日
      2009-06-03

URL: 

公開日: 2011-06-16   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi