• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

サイト適応型インデクサの実現方式に関する研究

研究課題

研究課題/領域番号 18500093
研究種目

基盤研究(C)

配分区分補助金
応募区分一般
研究分野 メディア情報学・データベース
研究機関国立情報学研究所

研究代表者

相澤 彰子  国立情報学研究所, コンテンツ科学研究系, 教授 (90222447)

研究期間 (年度) 2006 – 2007
研究課題ステータス 完了 (2007年度)
配分額 *注記
4,010千円 (直接経費: 3,500千円、間接経費: 510千円)
2007年度: 2,210千円 (直接経費: 1,700千円、間接経費: 510千円)
2006年度: 1,800千円 (直接経費: 1,800千円)
キーワード言語情報処理 / 複合語抽出 / 辞書構築 / 情報検索 / 語彙 / 専門ポータルサイト / インデックスツール / CRF / 専用ポータル / 語彙抽出 / 専門ポータル / EM法
研究概要

近年、汎用的な言語処理ツールやフリーの検索ソフトの普及によって、自前のコンテンツをWeb上に発信するポータルサイトの構築が容易に行えるようになった。これらポータルサイトによる検索機能の提供は、一極化しがちなインターネット検索の多様性を維持し、専門的な知識を広く流通させる上で重要な役割を担っている。ここで、専門的コンテンツの検索には、複合語を中心とする専門的キーワード抽出処理が不可欠であるが、既存の分かち書きツールは、この目的のために必ずしも満足の行くものではない。そこで本研究では、専門的ポータルサイトにおける検索機能強化を目的とするキーワード抽出法について検討した。平成18年度では、(A)テキストからの最長複合語単位の抽出、(B)複合語内の構成語の依存解析、の2つを独立なモジュールで実現し、例外的な用法や未知語・解析誤りに対するカスタマイズを低コストで行うための手法について検討を進めた。そして、(1)キーワードを構成する任意長の単語Nグラムに対する右接続・左接続コストを、最大エントロピー法を用いて定め、(2)これに基づき複合語構成語の依存木を生成して有効なキーワードを切り出す手法について予備的な実験を行った。また平成18年度では、専門用語集や専門コーパスを使ってあらかじめ各構成語に対して計算した分野関連度を利用して、大量の候補語の中から「情報処理関連用語」や「土木関連用語」など特定分野の用語を抽出する方法について検討を開始した。平成19年度では、前年度の検討結果を踏まえて、テキスト・文要素・文節区切り等の語頭・語尾に位置する構成語の左側・右側境界が自明であることを利用してCRF(Conditional Random Field)を用いてコスト調整を行う方法を提案した。また、作成した辞書を人手で編集するためのツールの適用と改良について検討し、辞書構築支援環境Dictionpediaの公開に協力した。

報告書

(3件)
  • 2007 実績報告書   研究成果報告書概要
  • 2006 実績報告書
  • 研究成果

    (25件)

すべて 2008 2007 2006

すべて 雑誌論文 (14件) (うち査読あり 4件) 学会発表 (11件)

  • [雑誌論文] 大規模テキストコーパスを用いた語の類似度計算に関する考察2008

    • 著者名/発表者名
      相澤 彰子
    • 雑誌名

      情報処理学会論文誌 49-3

      ページ: 1426-1436

    • NAID

      110006644536

    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      2007 研究成果報告書概要
    • 査読あり
  • [雑誌論文] On calculating word similarity using large text corpora2008

    • 著者名/発表者名
      Akiko Aizawa
    • 雑誌名

      IPSJ Journal 49-3

      ページ: 1426-1436

    • NAID

      110006644536

    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      2007 研究成果報告書概要
  • [雑誌論文] 類語関係抽出タスクにおけるコーパス規模拡大の影響2008

    • 著者名/発表者名
      相澤彰子
    • 雑誌名

      情報処理学会論文誌 49-3

      ページ: 1426-1436

    • NAID

      110004824217

    • 関連する報告書
      2007 実績報告書
    • 査読あり
  • [雑誌論文] 名詞と動詞の依存関係を利用したテキストからのIS-A関係の発見方法2007

    • 著者名/発表者名
      中渡 瀬秀一, 相澤 彰子
    • 雑誌名

      人工知能学会論文誌 22-6

      ページ: 585-594

    • NAID

      10022008204

    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      2007 研究成果報告書概要
    • 査読あり
  • [雑誌論文] 共起に基づく類似性尺度2007

    • 著者名/発表者名
      相澤 彰子
    • 雑誌名

      オペレーションズ・リサーチ 52-11

      ページ: 706-712

    • NAID

      110006440287

    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      2007 研究成果報告書概要
  • [雑誌論文] Discovering IS-A relationships from Text : a method based on Dependencies between Nouns and Verbs2007

    • 著者名/発表者名
      Hidekazu Nakawatase, Akiko Aizawa
    • 雑誌名

      transaction of the Japanese Society for Artificial Intelligence Vol.22, No.6

      ページ: 585-594

    • NAID

      10022008204

    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      2007 研究成果報告書概要
  • [雑誌論文] Co-occurrence based similarity measures2007

    • 著者名/発表者名
      Akiko Aizawa
    • 雑誌名

      Communications of the Operations Research Society of Japan Vol.52, No.11

    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      2007 研究成果報告書概要
  • [雑誌論文] 名詞と動詞の依存関係を利用したテキストからのIS-A関係の発見方法2007

    • 著者名/発表者名
      中渡瀬秀一、相澤彰子
    • 雑誌名

      人工知能学会論文誌 22-6

      ページ: 585-594

    • NAID

      10022008204

    • 関連する報告書
      2007 実績報告書
    • 査読あり
  • [雑誌論文] 共起に基づく類似性尺度2007

    • 著者名/発表者名
      相澤彰子
    • 雑誌名

      オペレーションズ・リサーチ 52-11

      ページ: 706-712

    • NAID

      110006440287

    • 関連する報告書
      2007 実績報告書
  • [雑誌論文] テキストを媒体とする情報の伝達をめぐって2007

    • 著者名/発表者名
      相澤彰子
    • 雑誌名

      人工知能学会学会誌 22, 1

      ページ: 14-14

    • 関連する報告書
      2006 実績報告書
  • [雑誌論文] 語義の違いを検出するための大規模コーパス処理手法の検討2006

    • 著者名/発表者名
      相澤彰子
    • 雑誌名

      電子情報通信学会 人工知能と知識処理研究会、 研究会資料 106, AI-38

      ページ: 57-62

    • NAID

      110004744920

    • 関連する報告書
      2006 実績報告書
  • [雑誌論文] 係り受け関係を利用した類語・例文辞書構築法と大規模コーパスへの適用2006

    • 著者名/発表者名
      相澤彰子, 中渡瀬秀一
    • 雑誌名

      人工知能学会全国大会(第20回)講演論文集

    • NAID

      130005023209

    • 関連する報告書
      2006 実績報告書
  • [雑誌論文] 類語関係抽出タスクにおけるコーパス規模拡大の影響2006

    • 著者名/発表者名
      相澤彰子
    • 雑誌名

      情報処理学会、第175回自然言語処理研究会, 研究会資料 NL-94

      ページ: 91-98

    • NAID

      110004824217

    • 関連する報告書
      2006 実績報告書
  • [雑誌論文] 書誌同定のためのリンケージシステムの試作2006

    • 著者名/発表者名
      相澤彰子
    • 雑誌名

      大規模データ・リンケージ・データマイニングと統計手法予稿集,

      ページ: 87-87

    • 関連する報告書
      2006 実績報告書
  • [学会発表] Multi-class named entity recognition via bootstrapping with dependency tree-based patterns2008

    • 著者名/発表者名
      Van B.Dang and Akiko Aizawa
    • 学会等名
      the 12nd Pacific-Asia Conference on Knowledge Discovery and Discovery and Data Mining (PAKDD2008)
    • 発表場所
      Osaka,Japan
    • 年月日
      2008-05-23
    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      2007 研究成果報告書概要
  • [学会発表] 検索用キーフレーズの解析及び抽出に関する検討2008

    • 著者名/発表者名
      長谷 川新, 相澤 彰子, 浜本 隆之
    • 学会等名
      情報処理学会第70回全国大会予稿集
    • 発表場所
      東京
    • 年月日
      2008-03-14
    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      2007 実績報告書 2007 研究成果報告書概要
  • [学会発表] Multi-class named entity recognition via bootstrapping with dependency tree-based patterns2008

    • 著者名/発表者名
      Van B. Dang, Akiko Aizawa
    • 学会等名
      the 12nd Pacific-Asia Conference on Knowledge Discovery and Data Mining
    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      2007 研究成果報告書概要
  • [学会発表] Webコーパスを用いた語の類似度計算に関する考察2007

    • 著者名/発表者名
      相澤 彰子
    • 学会等名
      人工知能学会知識ベースシステム研究会
    • 発表場所
      東京
    • 年月日
      2007-07-14
    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      2007 実績報告書 2007 研究成果報告書概要
  • [学会発表] On calculating word similarity using Web as corpus2007

    • 著者名/発表者名
      Akiko Aizawa
    • 学会等名
      JSAI SIG Technical Reports
    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      2007 研究成果報告書概要
  • [学会発表] 類語関係抽出タスクにおけるコーパス規模拡大の影響2006

    • 著者名/発表者名
      相澤 彰子
    • 学会等名
      第175回自然言語処理研究会/第84回情報学基礎研究会・NL-94
    • 発表場所
      東京
    • 年月日
      2006-09-12
    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      2007 研究成果報告書概要
  • [学会発表] 係り受け関係を利用した類語・例文辞書構築法と大規模コーパスへの適用2006

    • 著者名/発表者名
      相澤 彰子, 中渡 瀬秀一
    • 学会等名
      人工知能学会全国大会(第20回)
    • 発表場所
      東京
    • 年月日
      2006-06-08
    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      2007 研究成果報告書概要
  • [学会発表] 語義の違いを検出するための大規模コーパス処理方法の検討2006

    • 著者名/発表者名
      相澤 彰子
    • 学会等名
      電子情報通信学会 人工知能と知識処理研究会
    • 発表場所
      東京
    • 年月日
      2006-05-18
    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      2007 研究成果報告書概要
  • [学会発表] Detecting Semantic Diversity of Words in Large Scale Corpora2006

    • 著者名/発表者名
      Akiko Aizawa
    • 学会等名
      IEICE Tech Reports, AI2006-11
    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      2007 研究成果報告書概要
  • [学会発表] Automatic Extraction of Synonyms with Sample Phrases using Dependency Analysis of Text and Its Application to Large-scale Corpora2006

    • 著者名/発表者名
      Akiko Aizawa, Hidekazu Nakawatase
    • 学会等名
      The 20th Annual Conference of JSAI
    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      2007 研究成果報告書概要
  • [学会発表] On the Effect of Corpus Size in Words Similarity Calculation2006

    • 著者名/発表者名
      Akiko Aizawa
    • 学会等名
      SIG-report of IPSJ
    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      2007 研究成果報告書概要

URL: 

公開日: 2006-04-01   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi