• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2011 Fiscal Year Annual Research Report

言語使用の大規模観察に基づく言語知識獲得と言語解析の共深化

Research Project

Project/Area Number 23680015
Research InstitutionKyoto University

Principal Investigator

河原 大輔  京都大学, 情報学研究科, 准教授 (10450694)

Keywords自然言語処理 / 言語理解 / 知識獲得 / 人工知能 / 多言語処理 / 情報検索 / 言語解析 / 情報分析
Research Abstract

平成23年度は、1)基盤的な言語知識である格フレームを超大規模に獲得し、2)それに基づくネットワーク構造解析器のプロトタイプを作成、公開した。それぞれのついての詳細を以下で述べる。
1)超大規模格フレームの構築
幅広い言語現象をカバーする格フレームおよび言語知識を獲得するために、超大規模のWeb文書集合を利用し、その解析結果から格フレームを構築した。実際に使用したWeb文書集合は約30億ページである。そこから文抽出を行い、重複文を除くことによって、150億文のコーパスを得た。東京工業大学のTSUBAME計算サービスを利用し、このコーパスを構文解析し、その結果をクラスタリングすることによって、格フレームを構築した。
また、コーパスのサイズと解析精度との関係を調べるために、上記150億文コーパスからサンプリングすることによって、150万文、600万文、2500万文、1億文、4億文、16億文、64億文のコーパスを作成した。それぞれのコーパスからの格フレーム構築とそれに基づく解析器の作成を行い、コーパスのサイズが大きくなるにつれて、解析精度が向上することを確認した。
2)ネットワーク構造解析器のプロトタイプの作成
獲得した格フレームに基づくネットワーク構造解析器のプロトタイプを作成する。ネットワーク構造のうち、構文・格構造を格フレームに基づき高精度に同定できるシステムを開発した。本システムは、構文・格解析システムKNPバージョン4.0として、Webサイトから一般公開している。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

「研究の目的」を達成するために立てた研究計画に従い、平成23年度に実施すべきことはすべて実施することができた。そのため、「おおむね順調に進展している。」と評価する。

Strategy for Future Research Activity

研究は順調に進展しているので、研究計画通りに進めることによって、研究目的が達成される見込みである。

  • Research Products

    (5 results)

All 2012 2011 Other

All Presentation (4 results) Remarks (1 results)

  • [Presentation] 構造的言語処理に基づく検索エンジン基盤TSUBAKIの構築2012

    • Author(s)
      河原大輔
    • Organizer
      第4回データ工学と情報マネジメントに関するフォーラム
    • Place of Presentation
      シーサイドホテル舞子ビラ神戸(兵庫県)(招待ポスター)
    • Year and Date
      2012-03-04
  • [Presentation] 情報の信頼性判断を支援する言語処理技術2011

    • Author(s)
      河原大輔
    • Organizer
      日本語用論学会年次大会,特別シンポジウム
    • Place of Presentation
      京都外国語大学(京都府)(招待講演)
    • Year and Date
      2011-12-03
  • [Presentation] Generative Modeling of Coordination by Factoring Parallelism and Selectional Preferences2011

    • Author(s)
      河原大輔
    • Organizer
      IJCNLP 2011
    • Place of Presentation
      Shangri-La Hotel, Chiang Mai Thailand
    • Year and Date
      2011-11-10
  • [Presentation] Deep Natural Language Processing for Improving a Search Engine Infrastructure using Windows Azure2011

    • Author(s)
      河原大輔
    • Organizer
      Cloud Futures 2011
    • Place of Presentation
      Microsoft Conference Center, Redmond, WA, USA
    • Year and Date
      2011-06-03
  • [Remarks]

    • URL

      http://nlp.ist.i.kyoto-u.ac.jp/index.php?KNP

URL: 

Published: 2013-06-26  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi