研究課題/領域番号 |
23680015
|
研究機関 | 京都大学 |
研究代表者 |
河原 大輔 京都大学, 情報学研究科, 准教授 (10450694)
|
キーワード | 自然言語処理 / 言語理解 / 知識獲得 / 人工知能 / 多言語処理 / 情報検索 / 言語解析 / 情報分析 |
研究概要 |
平成23年度は、1)基盤的な言語知識である格フレームを超大規模に獲得し、2)それに基づくネットワーク構造解析器のプロトタイプを作成、公開した。それぞれのついての詳細を以下で述べる。 1)超大規模格フレームの構築 幅広い言語現象をカバーする格フレームおよび言語知識を獲得するために、超大規模のWeb文書集合を利用し、その解析結果から格フレームを構築した。実際に使用したWeb文書集合は約30億ページである。そこから文抽出を行い、重複文を除くことによって、150億文のコーパスを得た。東京工業大学のTSUBAME計算サービスを利用し、このコーパスを構文解析し、その結果をクラスタリングすることによって、格フレームを構築した。 また、コーパスのサイズと解析精度との関係を調べるために、上記150億文コーパスからサンプリングすることによって、150万文、600万文、2500万文、1億文、4億文、16億文、64億文のコーパスを作成した。それぞれのコーパスからの格フレーム構築とそれに基づく解析器の作成を行い、コーパスのサイズが大きくなるにつれて、解析精度が向上することを確認した。 2)ネットワーク構造解析器のプロトタイプの作成 獲得した格フレームに基づくネットワーク構造解析器のプロトタイプを作成する。ネットワーク構造のうち、構文・格構造を格フレームに基づき高精度に同定できるシステムを開発した。本システムは、構文・格解析システムKNPバージョン4.0として、Webサイトから一般公開している。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
「研究の目的」を達成するために立てた研究計画に従い、平成23年度に実施すべきことはすべて実施することができた。そのため、「おおむね順調に進展している。」と評価する。
|
今後の研究の推進方策 |
研究は順調に進展しているので、研究計画通りに進めることによって、研究目的が達成される見込みである。
|