2007 Fiscal Year Annual Research Report
Project/Area Number |
18500093
|
Research Institution | National Institute of Informatics |
Principal Investigator |
相澤 彰子 National Institute of Informatics, コンテンツ科学研究系, 教授 (90222447)
|
Keywords | 言語情報処理 / 複合語抽出 / 辞書構築 / 情報検索 / 語彙 / 専用ポータル / インデックスツール / CRF |
Research Abstract |
近年、汎用的な言語処理ツールやフリーの検索ソフトの普及によって、自前のコンテンツをWeb上に発信するポータルサイトの構築が容易に行えるようになった。これらポータルサイトによる検索機能の提供は、一極化しがちなインターネット検索の多様性を維持し、専門的な知識を広く流通させる上で重要な役割を担っている。ここで、専門的コンテンツの検索には、複合語を中心とする専門的キーワード抽出処理が不可欠であるが、既存の分かち書きツールは、この目的のために必ずしも満足の行くものではない。そこで本研究では、専門的ポータルサイトにおける検索機能強化を目的とするキーワード抽出法について検討する。 平成18年度では、(A)テキストからの最長複合語単位の抽出、(B)複合語内の構成語の依存解析、の2つを独立なモジュールで実現し、例外的な用法や未知語・解析誤りに対するカスタマイズを低コストで行うための手法について検討を進めた。そして、(1)キーワードを構成する任意長の単語Nグラムに対する右接続・左接続コストを、最大エントロピー法を用いて定め、(2)これに基づき複合語構成語の依存木を生成して有効なキーワードを切り出す手法について予備的な実験を行った。また平成18年度では、専門用語集や専門コーパスを使ってあらかじめ各構成語に対して計算した分野関連度を利用して、大量の候補語の中から「情報処理関連用語」や「土木関連用語」など特定分野の用語を抽出する方法について検討を開始した。 平成19年度では、前年度の検討結果を踏まえて、テキスト・文要素・文節区切り等の語頭・語尾に位置する構成語の左側・右側境界が自明であることを利用してCRF(Conditional Random Field)を用いてコスト調整を行う方法を提案した。また、作成した辞書を人手で編集するためのツールの適用と改良について検討し、辞書構築支援環境Dictionpediaの公開に協力した。
|