2008 Fiscal Year Annual Research Report
Project/Area Number |
08J08116
|
Research Institution | The University of Tokushima |
Principal Investigator |
矢田 晋 The University of Tokushima, 大学院・ソシオテクノサイエンス研究部, 特別研究員(PD)
|
Keywords | ダブル配列 / 大規模辞書 / Webコーパス |
Research Abstract |
効率的な辞書の構成法として知られるダブル配列のライブラリDartsに対し,同様のインタフェースを持つライブラリを公開した.辞書サイズ優先型のライブラリは,従来の圧縮手法を発展させた手法を採用しており,前方一致検索の効率が悪化するという欠点を持つものの,辞書サイズを1/2から1/5程度にまで圧縮する.一方,検索速度を優先したライブラリは,新たに提案した圧縮手法を採用しており,検索速度を向上させつつ辞書サイズを1/2以下に圧縮する.どちらの実装についても,従来の圧縮手法における辞書の規模に対する制限を解決しており,前者は数千万,後者は1億以上のキーを格納できることが確認されている. これらの手法により,従来からの応用である形態素解析や係り受け解析では,処理時間を大幅に悪化させることなく,大規模な語彙や素性の利用が可能となる.情報検索における言語処理技術の有用性は従来より知られており,高速化や精度向上は重要な意味を持つ.また,Webコーパスから得られる大規模な辞書やn-gramなどを格納できるようになり,大規模な索引やマイニングなどの応用における有用性が向上している. 本研究では,大規模Webコーパスの作成を進めており,現在,文書数で約3千万,DBサイズで約560GBの規模となっている.コーパスの収集においては,基本語彙をクエリとして既存の検索エンジンから得られるURLを利用している.大規模コーパスは機械学習の研究においても有用であるため,検索システムの開発と並行して解析技術の研究を進めていく計画である.
|
Research Products
(4 results)