Budget Amount *help |
¥1,600,000 (Direct Cost: ¥1,600,000)
Fiscal Year 2009: ¥800,000 (Direct Cost: ¥800,000)
Fiscal Year 2008: ¥800,000 (Direct Cost: ¥800,000)
|
Research Abstract |
大規模n-gramデータは,機械翻訳やかな漢字変換に用いる言語モデルの構築や,構文・共起に基づく言語知識の獲得などに有用である.しかし,気軽に利用するには規模が大きすぎるという難点があり,少数の研究において利用される程度にとどまっている.そこで,本研究では,大規模n-gramデータ用の検索システムを開発した.本システムは,導入が容易であり,Webブラウザからの検索もサポートすることで,データの利用にかかる負担を大幅に軽減している.これまでに,言語知識の獲得において,いくつかの成果を上げている. 前年度に作成を開始したWebコーパスについては,規模の拡大により,データベースのサイズで約1.8TB,HTML文書の数で約6000万件という規模になっている.本コーパスは,上述した大規模n-gramデータの構築や,検索システムのテストに利用されている.また,近年になって盛んに研究がおこなわれている,大規模コーパスを前提とする言語処理への利用も進めている. 辞書の構成法に関する研究では,簡潔データ構造とよばれるコンパクトなデータ構造の利用により,語彙数が10億件を超える極めて大規模な辞書を構築できることが確認された.また,各種データ構造の比較により,それぞれの利点や欠点が明らかとなり,用途による使い分けの指標となる情報が得られた.さらに,辞書に登録されている語を入力の候補として,優先順位にしたがって入力を補完する手法を新たに提案した.提案手法を用いると,候補が多い状況でも短時間で入力を補完できるため,より応答性の高いインタフェースを提供できる.
|