2002 Fiscal Year Annual Research Report
Project/Area Number |
14019050
|
Research Institution | Kyoto University |
Principal Investigator |
佐藤 理史 京都大学, 情報学研究科, 助教授 (30205918)
|
Keywords | 関連用語収集 / 重要語抽出 / サーチエンジン / ウェブ / 専門用語 |
Research Abstract |
本年度は、与えられた用語から、その用語に関連する10個程度の用語(関連用語)をウェブから自動的に収集する方法を確立し、システムとして実装した。 作成したシステムは、(1)コーパス作成、(2)重要語抽出、(3)フィルタリング、の3つのステップから成る。コーパス作成では、与えられた用語tに対して、サーチエンジンを用いて、その用語を含む文を収集し、用語tに対するコーパスを作成する。重要語抽出では、作成したコーパスから、中川の方法に基づいて、重要語を30個抽出する。これらを関連用語の候補とする。最後に、フィルタリングでは、候補のそれぞれに対して、専門用語性のチェックと関連性のチェックを行い、両方にパスしたものを最終的な関連用語とする。この2つのチェックには、サーチエンジンのヒット数を用いる。 作成したシステムを用いて、実際にウェブから関連用語を収集する実験を行った。5つの異なる分野の総計50個の用語(入力)に対してシステムを動作させたところ、総計で610個の関連用語が収集された。このうち、関連用語として適切なものは、519個(85%)であった。また、入力の50語のそれぞれに対して、収集されるべき関連用語を数語づつ総計210語設定し、それらの用語が実際に収集できているかどうかを調べたところ、実際に収集されていたのは43語(20%)であった。これらの実験結果から、関連用語の収集の精度は十分であるが、網羅性には問題があることがわかった。
|
Research Products
(2 results)
-
[Publications] 佐藤理史, 佐々木靖広: "ウェブを利用した関連用語の自動収集"情報処理学会研究報告 NL-2003-153. 2003・4. 57-64 (2003)
-
[Publications] 佐々木靖広, 佐藤理史: "ウェブを利用した関連用語の自動収集"言語処理学会第9回年次大会発表論文集. 278-281 (2003)