• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2010 Fiscal Year Annual Research Report

係り受けや照応・省略などの高次言語情報を用いた確率的言語モデル

Research Project

Project/Area Number 20680008
Research InstitutionKyoto University

Principal Investigator

森 信介  京都大学, 学術情報メディアセンター, 准教授 (90456773)

Keywords点予測 / 部分的アノテーション / 能動学習 / 単語分割 / 係り受け解析 / 仮名漢字変換 / 確率的単語分割 / 確率的タグ付与
Research Abstract

まず、点予測による手法を提案し、自動単語分割の精度向上を実現した。実験では、単語と品詞として国立国語研究所が提案する定義を採用し、その基準に沿う『現代日本語書き言葉均衡コーパス』を用いて有効性を示した。特に、部分的アノテーションコーパスの概念を提案し、これを含むさまざまな言語資源からの学習が可能であることを示し、安価かつ高速の分野適応が実現した。点予測による手法を品詞推定や読み推定にも適用し、同様の有効性が実現できることを示した。この成果は、「言語処理ソフトウェアKyTea」として公開しており、多数に利用されている。また、分野適応のための能動学習ツールを構築し、公開している。これらは、東北大震災の安否情報の言語処理に使われた。
高精度の自動係り受け解析を実現するために、単語境界情報と係り受け情報が付与されたコーパスを辞書の例文と経済新聞記事から作成した。それぞれ、13,000文と10,025文からなる。点予測による係り受け解析を実現し、これらのコーパスを用いて既存手法と同等の精度が得られることを示した。また、係り受け情報が付与されたコーパスから、構造情報を利用する確率的言語モデルを構築し、予測力における有効性を確認した。
また、確率的なアノテーションを提案し、確率的単語分割コーパスや確率的読み付与コーパスからの言語モデルの作成を提案し、新聞やウェブのデータから大規模な言語モデルを作成し、音声認識や仮名漢字変換への応用を行った。仮名漢字変換については、エンジンをフリーのソフトウェアとして公開している.
0言語処理ソフトウェアKyTea:http://www.phontron.com/kytea/index-ja.html
0仮名漢字変換ソフトウェアSIMPLE:http://plata.ar.media.kyoto-u.ac.jp/mori/research/topics/KKC/

  • Research Products

    (9 results)

All 2011 2010 Other

All Journal Article (3 results) (of which Peer Reviewed: 3 results) Presentation (5 results) Remarks (1 results)

  • [Journal Article] 確率的タグ付与コーパスからの言語モデル構築2011

    • Author(s)
      森信介, 笹田鉄郎, Neubig Graham
    • Journal Title

      自然言語処理

      Volume: 18 Pages: 71-87

    • Peer Reviewed
  • [Journal Article] 3種類の辞書による自動単語分割の精度向上2011

    • Author(s)
      森信介, 小田裕樹
    • Journal Title

      自然言語処理

      Pages: 139-152

    • Peer Reviewed
  • [Journal Article] 自動獲得した未知語の読み・文脈情報による仮名漢字変換2010

    • Author(s)
      笹田鉄郎, 森信介, 河原達也
    • Journal Title

      自然言語処理

      Volume: 17 Pages: 131-154

    • Peer Reviewed
  • [Presentation] Pointwise Prediction for Robust, Adaptable Japanese Morphological Analysis2011

    • Author(s)
      Graham Neubig, Yosuke Nakata, Shinsuke Mori
    • Organizer
      ACL-HLT2011
    • Place of Presentation
      Portland Marriott Waterfront, Portland, USA(再録決定)
    • Year and Date
      2011-06-20
  • [Presentation] 変換ログを用いた仮名漢字変換精度の向上2011

    • Author(s)
      山口洋平, 森信介, 河原達也
    • Organizer
      言語処理学会第17年次大会
    • Place of Presentation
      愛知県豊橋市・豊橋技術科学大学
    • Year and Date
      2011-03-10
  • [Presentation] 点予測と系列予測の2段階化による品詞推定の精度向上2011

    • Author(s)
      中田陽介, NEUBIG Graham, 森信介, 河原達也
    • Organizer
      情報処理学会研究報告
    • Place of Presentation
      東京都・NHK放送技術研究所
    • Year and Date
      2011-01-28
  • [Presentation] 点予測による形態素解析2010

    • Author(s)
      中田陽介, NEUBIG Graham, 森信介, 河原達也
    • Organizer
      情報処理学会研究報告
    • Place of Presentation
      東京都・国立情報学研究所
    • Year and Date
      2010-09-17
  • [Presentation] Word-based Partial Annotation for Efficient Corpus Construction2010

    • Author(s)
      Graham Neubig, Shinsuke Mori
    • Organizer
      LREC2010
    • Place of Presentation
      Meditterranean Conference Center Valetta, Malta
    • Year and Date
      2010-05-20
  • [Remarks]

    • URL

      http://plata.ar.media.kyoto-u.ac.jp/mori/research/

URL: 

Published: 2012-07-19  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi