研究課題
基盤研究(C)
近年、汎用的な言語処理ツールやフリーの検索ソフトの普及によって、自前のコンテンツをWeb上に発信するポータルサイトの構築が容易に行えるようになった。これらポータルサイトによる検索機能の提供は、一極化しがちなインターネット検索の多様性を維持し、専門的な知識を広く流通させる上で重要な役割を担っている。ここで、専門的コンテンツの検索には、複合語を中心とする専門的キーワード抽出処理が不可欠であるが、既存の分かち書きツールは、この目的のために必ずしも満足の行くものではない。そこで本研究では、専門的ポータルサイトにおける検索機能強化を目的とするキーワード抽出法について検討する。平成18年度では、(A)テキストからの最長複合語単位の抽出、(B)複合語内の構成語の依存解析、の2つを独立なモジュールで実現し、例外的な用法や未知語・解析誤りに対するカスタマイズを低コストで行うための手法について検討を進めた。そして、(1)キーワードを構成する任意長の単語Nグラムに対する右接続・左接続コストを、最大エントロピー法を用いて定め、(2)これに基づき複合語構成語の依存木を生成して有効なキーワードを切り出すためのプログラムを実装した。また平成18年度では、専門用語集や専門コーパスを使ってあらかじめ各構成語に対して計算した分野関連度を利用して、大量の候補語の中から「情報処理関連用語」や「土木関連用語」など特定分野の用語を抽出する方法について検討を開始し、検索エンジンのsnippetを周辺語として利用するための実験環境を構築した。平成19年度では、テキスト・文要素・文節区切り等の語頭・語尾に位置する構成語の左側・右側境界が自明であることを利用して、(A)の出力から直接コスト調整を行う方法を提案するとともに、解析結果の評価方法を検討する。また、作成した辞書を人手で編集するためのツールの適用と改良についてもあわせて検討を進めたい。
すべて 2007 2006
すべて 雑誌論文 (5件)
人工知能学会学会誌 22, 1
ページ: 14
電子情報通信学会 人工知能と知識処理研究会、 研究会資料 106, AI-38
ページ: 57-62
人工知能学会全国大会(第20回)講演論文集
ページ: 2E1-5
情報処理学会、第175回自然言語処理研究会, 研究会資料 NL-94
ページ: 91-98
大規模データ・リンケージ・データマイニングと統計手法予稿集,
ページ: 87