Project/Area Number |
14019050
|
Research Category |
Grant-in-Aid for Scientific Research on Priority Areas
|
Allocation Type | Single-year Grants |
Review Section |
Science and Engineering
|
Research Institution | Kyoto University |
Principal Investigator |
佐藤 理史 京都大学, 情報学研究科, 助教授 (30205918)
|
Project Period (FY) |
2002
|
Project Status |
Completed (Fiscal Year 2002)
|
Budget Amount *help |
¥3,800,000 (Direct Cost: ¥3,800,000)
Fiscal Year 2002: ¥3,800,000 (Direct Cost: ¥3,800,000)
|
Keywords | 関連用語収集 / 重要語抽出 / サーチエンジン / ウェブ / 専門用語 |
Research Abstract |
本年度は、与えられた用語から、その用語に関連する10個程度の用語(関連用語)をウェブから自動的に収集する方法を確立し、システムとして実装した。 作成したシステムは、(1)コーパス作成、(2)重要語抽出、(3)フィルタリング、の3つのステップから成る。コーパス作成では、与えられた用語tに対して、サーチエンジンを用いて、その用語を含む文を収集し、用語tに対するコーパスを作成する。重要語抽出では、作成したコーパスから、中川の方法に基づいて、重要語を30個抽出する。これらを関連用語の候補とする。最後に、フィルタリングでは、候補のそれぞれに対して、専門用語性のチェックと関連性のチェックを行い、両方にパスしたものを最終的な関連用語とする。この2つのチェックには、サーチエンジンのヒット数を用いる。 作成したシステムを用いて、実際にウェブから関連用語を収集する実験を行った。5つの異なる分野の総計50個の用語(入力)に対してシステムを動作させたところ、総計で610個の関連用語が収集された。このうち、関連用語として適切なものは、519個(85%)であった。また、入力の50語のそれぞれに対して、収集されるべき関連用語を数語づつ総計210語設定し、それらの用語が実際に収集できているかどうかを調べたところ、実際に収集されていたのは43語(20%)であった。これらの実験結果から、関連用語の収集の精度は十分であるが、網羅性には問題があることがわかった。
|
Report
(1 results)
Research Products
(2 results)