• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

大規模コーパスから日本語表現の構造知識を自動獲得するためのプログラムの研究開発

研究課題

研究課題/領域番号 09558035
研究種目

基盤研究(B)

配分区分補助金
応募区分展開研究
研究分野 知能情報学
研究機関鳥取大学

研究代表者

池原 悟  鳥取大学, 工学部, 教授 (70283968)

研究分担者 白井 諭  ATR音声翻訳通信研究所, 第3研究室, 室長
白井 論  NTTコミュニケーション科学研究所, 主幹研究員
研究期間 (年度) 1997 – 1999
研究課題ステータス 完了 (1999年度)
配分額 *注記
4,100千円 (直接経費: 4,100千円)
1999年度: 1,600千円 (直接経費: 1,600千円)
1998年度: 2,500千円 (直接経費: 2,500千円)
キーワードN-gram解析 / 類似文検索 / コロケーション / 名詞句 / 重文・複文 / 係り受け解析 / 日英翻訳 / 文型パターン / N-gram統計 / 係り受け構造 / コーパス / 構造知識 / 知識獲得 / 自動学習 / 共起表現 / 意味解析 / N-gra.m / 単語意味属性
研究概要

本研究は、大規模コーパスから日本語表現の構造に関する知識を抽出するための方法論を確立し、プログラムツールを試作することを狙ったものである。初年度は、表現構造とその意味(クラス)を一般的に記述する方法を提案し、これを名詞句の係り受け関係知識獲得に使用する方法を検討した。具体的には、新聞記事5年分(約450MB)、短編小説100冊の日本文を形態素解析し、その結果をデータベース化した。また、それぞれの中から、約20万件、約17万件の「の型名詞句」を自動抽出し、これを元に、係り受け規則の自動獲得実験を行った。その結果、"の型名詞句"では、解析精度約84%の係り受け規則が抽出できること、名詞句の解析に効果の大きい単語意味属性は、全体の2,700種のうち、ほぼ、82種類に限定されること、名詞に意味属性の結合の強度を用いれば、形容詞の係り先が85%の精度で決定できることが分かった。また、文型パターン検索のため、長文に強い2段トライ検索方式を発明した。
H10年度は、より汎用的な日本語表現の意味辞書作成を目指して、連鎖型/離散型共起表現抽出プログラムの基本試作を行い、共起表現抽出実験を行った。実験では、目標とする表現パターンが能率良く抽出できるようにするため、原文段階で種々の置き換え処理を行う方法を考案した。
そこで、H11年度は、(1)複数の名詞から構成される表現(名詞句)、(2)複数の動詞から構成される表現(重文/複文)の2種類の表現を対象に、最適な単語置き換え表を実験的に求めた。その結果、従来に比べて、表現パターンと見なせないようなごみの抽出を大幅に削減できるようになった。
また、大規模コーパスから、係り受け構造に着目して構造的類似文を発見する方法として、入力文と対応する係り受けペア数が最大となる組を発見するためのアルゴリズムを考案した。

報告書

(4件)
  • 1999 実績報告書   研究成果報告書概要
  • 1998 実績報告書
  • 1997 実績報告書
  • 研究成果

    (21件)

すべて その他

すべて 文献書誌 (21件)

  • [文献書誌] 春野雅彦: "Two-step Extraction of Bilingual Collocations by Word-Level Sorting"ICEIC Transactions. W8L_D・10号. 1103-1110 (1998)

    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      1999 研究成果報告書概要
  • [文献書誌] 荒木 哲朗: "N-gramを用いた対話文の言い直し表現の検出法"言語処理学会論文誌. 6巻・3号.

    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      1999 研究成果報告書概要
  • [文献書誌] 池原 悟: "機械翻訳について--機械翻訳の仕組みと今後の展望--"人文学と情報処理. No.21. 54-59 (1999)

    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      1999 研究成果報告書概要
  • [文献書誌] M.Haruno, S.Ikehara: "Two-step Extraction of bilingual Collocations by Word-Level Sorting"IEICE Transactions on Information and Systems. Vol.W81-D, No.10. 1103-1110 (1998)

    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      1999 研究成果報告書概要
  • [文献書誌] S.Nakai, S.Ikehara, S.Shirai: "Automatic Dependency Rule Generation for Japanese Noun Phrases with "no""ICEIE, SIG-NLC. NLC98-3. 15-22 (1998)

    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      1999 研究成果報告書概要
  • [文献書誌] S.Nakai, S.Ikehara, S.Shirai: "Automatic Dependency Rule Generation based on Syntactic and Semantic Attributes for Japanese Noun Phrases with "no""ISPJ SIG-NL. No.128-7. 45-51 (1998)

    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      1999 研究成果報告書概要
  • [文献書誌] Satoru Ikehara: "machine Translation --Mechanisms of MT and from now --"Literature and Information Processing. No21. 54-59 (1999)

    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      1999 研究成果報告書概要
  • [文献書誌] Tetsurou Araki, Satoru Ikehara, et al.: "A Method to Detect the Syllable Strings of Self-repair in Spontaneous Speech Using N-gra Model"Journal of Natural Language Processing. Vol.6, No.3. 23-41 (1999)

    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      1999 研究成果報告書概要
  • [文献書誌] S.Ikehara, S.Nakai, J.Murakami: "Automatic Generation of Semantic Dependency Rules for Japanese Noun Phrases with Particle "no""Proceedings of the 8th International Conference on Theoretical and Methodological Issues in Machine Translation (TMI99). 55-65 (1999)

    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      1999 研究成果報告書概要
  • [文献書誌] 池原悟: "機械翻訳について--機械翻訳のしくみと今後の展望"人文学と情報処理. No.21. 54-59 (1999)

    • 関連する報告書
      1999 実績報告書
  • [文献書誌] 荒木哲郎: "N-gramを用いた対話文の言い直し表現の検出法"言語処理学会論文誌. vol.6・No.2. 23-41 (1999)

    • 関連する報告書
      1999 実績報告書
  • [文献書誌] 池原悟: "日本語名詞句に対する意味的構造規則の自動獲得"第4回LACA研究会. 1-10 (1999)

    • 関連する報告書
      1999 実績報告書
  • [文献書誌] 池原悟: "日英表現意味辞書の共同開発の提案-対象認識法に基づく言語表現の意味類型化を目指して-"電子環境と語学教育シンポジュム. 1-4 (2000)

    • 関連する報告書
      1999 実績報告書
  • [文献書誌] 浅野順平: "名詞の意味を介した複合連体節の構造解析について"自然言語処理学会第6回年次大会. (1999)

    • 関連する報告書
      1999 実績報告書
  • [文献書誌] 春野雅彦: "Two-step Extraction of Bilingual Collocations by Word-Level Sorting" ICEIC Transactions. w8L_D・10号. 1103-1110 (1998)

    • 関連する報告書
      1998 実績報告書
  • [文献書誌] 荒木哲朗: "N-gramを用いた対話文の言い直し表現の検出法" 言語処理学会論文誌. 6巻・3号.

    • 関連する報告書
      1998 実績報告書
  • [文献書誌] 木本泰博: "日本文意味解析に必要な最小意味属性の組の決定" 情報処理学会57回全国大会. 3V巻・06号. (1998)

    • 関連する報告書
      1998 実績報告書
  • [文献書誌] 池原 悟: "自然言語処理の基本問題と意味辞書の役割" 信学会NLCシンポジューム. (1999)

    • 関連する報告書
      1998 実績報告書
  • [文献書誌] 市原 創: "要素の順序関係から見た類似文最適照合検索" 第5回言語処理学会年次大会. (1999)

    • 関連する報告書
      1998 実績報告書
  • [文献書誌] 中井慎司: "階層構造を持つ属性の組とクラスで与えられる構造規則のクラス分類" 第5回言語処理学会年次大会. (1999)

    • 関連する報告書
      1998 実績報告書
  • [文献書誌] 池原, 中井, 白井: "「の型名詞句における名詞間の意味的係り受け規則の自動生成" 自然言語処理第4回年次大会論文集. 4(未定). (1998)

    • 関連する報告書
      1997 実績報告書

URL: 

公開日: 1998-04-01   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi