• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

文字クラスに基づいた言語モデルとその汎用日本語形態素解析への応用に関する研究

研究課題

研究課題/領域番号 10680383
研究種目

基盤研究(C)

配分区分補助金
応募区分一般
研究分野 知能情報学
研究機関徳島大学

研究代表者

北 研二  徳島大学, 工学部, 助教授 (10243734)

研究期間 (年度) 1998 – 1999
研究課題ステータス 完了 (1999年度)
配分額 *注記
2,400千円 (直接経費: 2,400千円)
1999年度: 800千円 (直接経費: 800千円)
1998年度: 1,600千円 (直接経費: 1,600千円)
キーワード自然言語処理 / 日本語処理 / 形態素解析 / 単語分割 / 確率的言語モデル / PPM^*モデル / 文字クラス / クラスタリング / PPMモデル
研究概要

自然言語処理応用システムの研究開発において、形態素解析は最も基本的な技術である。日本語においては、文境界が明示的に示されていないため、特に単語の同定、すなわち文の単語分割が重要となる。本研究では、日本語文字を抽象化した文字クラスという新しい概念に基づく確率的言語モデルおよびこのモデルの形態素解析(特に単語分割)への応用に関する研究を行った。
本研究では、まず基本的な単語分割手法として、文字n-gramモデルに基づく単語分割法について研究した。さらに、単語分割の精度向上のために、文字n-gramモデルに代わり、データ圧縮アルゴリズムPPM^*を用いた言語モデルを適用した単語分割法の研究開発を行った。PPM^*は、確率・統計的テキスト圧縮技法として最も性能の優れたPPM(Prediction by Matching)の一種であり、無限長文脈を取り扱うことができる。
次に、日本語文字のクラス分類により得られた文字クラスモデルを用いる新しい単語分割手法について研究した。文字クラスモデルでは、推定すべきパラメータ数が文字モデルより少ないという大きな利点があり、文字モデルより頑健な推定を可能とする。したがって、文字クラスモデルを単語分割へ適用した場合、文字モデルよりもさらに頑健な未知語モデルとして機能することが期待できる。ADD(ATR Dialogue Database)コーパスを用いて評価実験を行った結果、文字クラスモデルを用いた提案手法の単語分割精度は文字モデルによる精度より高く、特に、文字クラスを予測単位とする可変長n-gramクラスモデルではオープンテストにおいて再現率96.38%、適合率96.23%の高精度を達成することができた。

報告書

(3件)
  • 1999 実績報告書   研究成果報告書概要
  • 1998 実績報告書
  • 研究成果

    (30件)

すべて その他

すべて 文献書誌 (30件)

  • [文献書誌] 小田裕樹,森信介,北研二: "文字クラスモデルによる日本語単語分割"自然言語処理. 6・7. 93-108 (1999)

    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      1999 研究成果報告書概要
  • [文献書誌] K.Kita: "Automatic Clustering of Languages Based on Probabilistic Models"Journal of Quantitative Linguistics. 6・2. 167-171 (1999)

    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      1999 研究成果報告書概要
  • [文献書誌] H.Oda,K,Kita: "A Character-Based Japanese Word Segmenter Usirtg PPM^*-Based Langauge Model"Proceedings of ICCPOL'99. 527-532 (1999)

    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      1999 研究成果報告書概要
  • [文献書誌] X-Y,Tai,Y.Kato,K. Kita: "Automatically Compiling Multilingual Translations from the World Wide Web"Proceedings of ISMT & CLIP. 516-521 (1998)

    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      1999 研究成果報告書概要
  • [文献書誌] Y.Tanaka,K.Kita: "JCKE Multilingual Corpus of Major Asian Languages"Proceedings of TKE'99. 660-670 (1999)

    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      1999 研究成果報告書概要
  • [文献書誌] 小田裕樹,北研二: "PPM^*言語モデルを用いた日本語単語分割"情報処理学会論文誌. (印刷中). (2000)

    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      1999 研究成果報告書概要
  • [文献書誌] 北 研二: "確率的言語モデル"東京大学出版会. 256 (1999)

    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      1999 研究成果報告書概要
  • [文献書誌] K. Kita, M. Sasaki, X-Y. Tai: "Rule-Based Hierarchical Document Categorization for the World Wide Web"Asia Pacific Web Conference (AP-Web98). 269-273 (1998)

    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      1999 研究成果報告書概要
  • [文献書誌] M. Sasaki, K. Kita: "Rule-Based Text Categorization Using Hierarchical Categories"1998 IEEE International Conference on Systems, Man and Cybernetics. 2827-2830 (1998)

    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      1999 研究成果報告書概要
  • [文献書誌] M. Sasaki, K. Kita: "Automatic Text Categorization based on Hierarchical Rules"5th International Conference on Soft Computing. 935-938 (1998)

    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      1999 研究成果報告書概要
  • [文献書誌] Y. Kato, K. Kita: "Modern Japanese Processing Problems - Problems of "Kita-Kana" Appeared in Loan Words -"18th International Conference on Computer Proceeding of Oriental Languages. 305-308 (1999)

    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      1999 研究成果報告書概要
  • [文献書誌] H. Oda, K. Kita: "A Character-Based Japanese Word Segmenter Using PPM* -Based Language Model"18th International Conference on Computer Proceeding of Oriental Languages. 527-532 (1999)

    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      1999 研究成果報告書概要
  • [文献書誌] X-Y, Tai, Y. Kato, K. Kita: "Automatically Compiling Multilingual Translations from the World Wide Web"International Symposium on Machine Translation and Computer Language Information Processing (ISMT & CLIP). 516-521 (1999)

    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      1999 研究成果報告書概要
  • [文献書誌] Y. Tanaka, K. Kita: "JCKE Multilingual Corpus of Major Asian Languages"Fifth International Congress on Terminology and Knowledge Engineering (TKE'99). 660-670 (1999)

    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      1999 研究成果報告書概要
  • [文献書誌] K. Kita: "Automatic Clustering' of Languages Based on Probabilistic Models"Journal of Quantitative Linguistics. Vol. 6, No. 2. 167-171 (1999)

    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      1999 研究成果報告書概要
  • [文献書誌] H. Oda, S. Mori, K. Kita: "A Japanese Word Segmenter by a Character Class Models"Journal of Natural Language Processing. Vol. 6, No. 7 (in Japanese). 93-108 (1999)

    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      1999 研究成果報告書概要
  • [文献書誌] H. Oda, K. Kita: "A Japanese Word Segmenter Using a PPM*-Based Language Model"Journal of IPSJ. (in Japanese) (in press).

    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      1999 研究成果報告書概要
  • [文献書誌] 小田裕樹,森 信介,北研二: "文字クラスモデルによる日本語単語分割"自然言語処理. 6・7. 93-108 (1999)

    • 関連する報告書
      1999 実績報告書
  • [文献書誌] K.Kita: "Automatic Clustering of Languages Based on Ptobabilistic Models"Journal of Quantitative Linguistics. 6・2. 167-171 (1999)

    • 関連する報告書
      1999 実績報告書
  • [文献書誌] H.Oda,K.Kita: "A Character-Based Japanese Word Segmenter Using PPM^*-Based Langauge Model"Proceedings of ICCPOL'99. 527-532 (1999)

    • 関連する報告書
      1999 実績報告書
  • [文献書誌] X-Y,Tai,Y.Kato,K.Kita: "Automatically Compiling Multilingual Translations from the World Wide Web"Proceedings of ISMT&CLIP. 516-521 (1998)

    • 関連する報告書
      1999 実績報告書
  • [文献書誌] Y.Tanaka,K.Kita: "JCKE Multilingual Corpus of Major Asian Languages"Proceedings of TKE'99. 660-670 (1999)

    • 関連する報告書
      1999 実績報告書
  • [文献書誌] 小田裕樹,北 研二: "PPM^*言語モデルを用いた日本語単語分割"情報処理学会論文誌(印刷中). (2000)

    • 関連する報告書
      1999 実績報告書
  • [文献書誌] 北 研二: "確率的言語モデル"東京大学出版会. 256 (1999)

    • 関連する報告書
      1999 実績報告書
  • [文献書誌] Kenji Kita et al.: "Rule-based hierarclnical document categorization for the World Wide Web" Proceedings of APWEB'98. (1998)

    • 関連する報告書
      1998 実績報告書
  • [文献書誌] Minaru Sasaki and Kenji Kita: "Automatic text categorization based on hierarchical rules" PRoceedings of IIZUKA'98. (1998)

    • 関連する報告書
      1998 実績報告書
  • [文献書誌] Minaru Sasaki and Kenji Kita: "Rule-based text categorization using hicrarchical categories" Proceedings of IEEE SMC'98. (1998)

    • 関連する報告書
      1998 実績報告書
  • [文献書誌] 小田裕樹、北研二: "PPMモデルによる日本語単語分割" 自然言語処理研究会. 128. 2827-2830 (1998)

    • 関連する報告書
      1998 実績報告書
  • [文献書誌] 北研二、山口直宏: "World Wide Webからの対訳データの自動収集" 自然言語処理研究会. 128. 127-134 (1998)

    • 関連する報告書
      1998 実績報告書
  • [文献書誌] 小田裕樹、北研二: "文字クラスモデルに基づく日本語田んぼ分割" 自然言語処理研究会. (発売予定). (1999)

    • 関連する報告書
      1998 実績報告書

URL: 

公開日: 1998-04-01   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi