2007 Fiscal Year Annual Research Report

サイト適応型インデクサの実現方式に関する研究

Research Project

Project/Area Number	18500093
Research Institution	National Institute of Informatics
Principal Investigator	相澤彰子 National Institute of Informatics, コンテンツ科学研究系, 教授 (90222447)
Keywords	言語情報処理 / 複合語抽出 / 辞書構築 / 情報検索 / 語彙 / 専用ポータル / インデックスツール / CRF
Research Abstract	近年、汎用的な言語処理ツールやフリーの検索ソフトの普及によって、自前のコンテンツをWeb上に発信するポータルサイトの構築が容易に行えるようになった。これらポータルサイトによる検索機能の提供は、一極化しがちなインターネット検索の多様性を維持し、専門的な知識を広く流通させる上で重要な役割を担っている。ここで、専門的コンテンツの検索には、複合語を中心とする専門的キーワード抽出処理が不可欠であるが、既存の分かち書きツールは、この目的のために必ずしも満足の行くものではない。そこで本研究では、専門的ポータルサイトにおける検索機能強化を目的とするキーワード抽出法について検討する。平成18年度では、(A)テキストからの最長複合語単位の抽出、(B)複合語内の構成語の依存解析、の2つを独立なモジュールで実現し、例外的な用法や未知語・解析誤りに対するカスタマイズを低コストで行うための手法について検討を進めた。そして、(1)キーワードを構成する任意長の単語Nグラムに対する右接続・左接続コストを、最大エントロピー法を用いて定め、(2)これに基づき複合語構成語の依存木を生成して有効なキーワードを切り出す手法について予備的な実験を行った。また平成18年度では、専門用語集や専門コーパスを使ってあらかじめ各構成語に対して計算した分野関連度を利用して、大量の候補語の中から「情報処理関連用語」や「土木関連用語」など特定分野の用語を抽出する方法について検討を開始した。平成19年度では、前年度の検討結果を踏まえて、テキスト・文要素・文節区切り等の語頭・語尾に位置する構成語の左側・右側境界が自明であることを利用してCRF(Conditional Random Field)を用いてコスト調整を行う方法を提案した。また、作成した辞書を人手で編集するためのツールの適用と改良について検討し、辞書構築支援環境Dictionpediaの公開に協力した。

Research Products
(5 results)

All 2008 2007

All Journal Article (3 results) (of which Peer Reviewed: 2 results) Presentation (2 results)

[Journal Article] 類語関係抽出タスクにおけるコーパス規模拡大の影響2008
- Author(s)
  相澤彰子
- Journal Title
  
  情報処理学会論文誌 49-3
  
  Pages: 1426-1436
- Peer Reviewed
[Journal Article] 名詞と動詞の依存関係を利用したテキストからのIS-A関係の発見方法2007
- Author(s)
  中渡瀬秀一、相澤彰子
- Journal Title
  
  人工知能学会論文誌 22-6
  
  Pages: 585-594
- Peer Reviewed
[Journal Article] 共起に基づく類似性尺度2007
- Author(s)
  相澤彰子
- Journal Title
  
  オペレーションズ・リサーチ 52-11
  
  Pages: 706-712
[Presentation] 検索用キーフレーズの解析及び抽出に関する検討2008
- Author(s)
  長谷川新, 相澤彰子, 浜本隆之
- Organizer
  情報処理学会第70回全国大会予稿集
- Place of Presentation
  東京
- Year and Date
  2008-03-14
- Description
  「研究成果報告書概要(和文)」より
[Presentation] Webコーパスを用いた語の類似度計算に関する考察2007
- Author(s)
  相澤彰子
- Organizer
  人工知能学会知識ベースシステム研究会
- Place of Presentation
  東京
- Year and Date
  2007-07-14
- Description
  「研究成果報告書概要(和文)」より

2007 Fiscal Year Annual Research Report

サイト適応型インデクサの実現方式に関する研究

Principal Investigator

相澤 彰子 National Institute of Informatics, コンテンツ科学研究系, 教授 (90222447)

Research Products

[Journal Article] 類語関係抽出タスクにおけるコーパス規模拡大の影響2008

Author(s)

Journal Title

[Journal Article] 名詞と動詞の依存関係を利用したテキストからのIS-A関係の発見方法2007

Author(s)

Journal Title

[Journal Article] 共起に基づく類似性尺度2007

Author(s)

Journal Title

[Presentation] 検索用キーフレーズの解析及び抽出に関する検討2008

Author(s)

Organizer

Place of Presentation

Year and Date

Description

[Presentation] Webコーパスを用いた語の類似度計算に関する考察2007

Author(s)

Organizer

Place of Presentation

Year and Date

Description

相澤彰子 National Institute of Informatics, コンテンツ科学研究系, 教授 (90222447)