研究課題/領域番号 |
09558035
|
研究種目 |
基盤研究(B)
|
配分区分 | 補助金 |
応募区分 | 展開研究 |
研究分野 |
知能情報学
|
研究機関 | 鳥取大学 |
研究代表者 |
池原 悟 鳥取大学, 工学部, 教授 (70283968)
|
研究分担者 |
白井 諭 ATR音声翻訳通信研究所, 第3研究室, 室長
白井 論 NTTコミュニケーション科学研究所, 主幹研究員
|
研究期間 (年度) |
1997 – 1999
|
研究課題ステータス |
完了 (1999年度)
|
配分額 *注記 |
4,100千円 (直接経費: 4,100千円)
1999年度: 1,600千円 (直接経費: 1,600千円)
1998年度: 2,500千円 (直接経費: 2,500千円)
|
キーワード | N-gram解析 / 類似文検索 / コロケーション / 名詞句 / 重文・複文 / 係り受け解析 / 日英翻訳 / 文型パターン / N-gram統計 / 係り受け構造 / コーパス / 構造知識 / 知識獲得 / 自動学習 / 共起表現 / 意味解析 / N-gra.m / 単語意味属性 |
研究概要 |
本研究は、大規模コーパスから日本語表現の構造に関する知識を抽出するための方法論を確立し、プログラムツールを試作することを狙ったものである。初年度は、表現構造とその意味(クラス)を一般的に記述する方法を提案し、これを名詞句の係り受け関係知識獲得に使用する方法を検討した。具体的には、新聞記事5年分(約450MB)、短編小説100冊の日本文を形態素解析し、その結果をデータベース化した。また、それぞれの中から、約20万件、約17万件の「の型名詞句」を自動抽出し、これを元に、係り受け規則の自動獲得実験を行った。その結果、"の型名詞句"では、解析精度約84%の係り受け規則が抽出できること、名詞句の解析に効果の大きい単語意味属性は、全体の2,700種のうち、ほぼ、82種類に限定されること、名詞に意味属性の結合の強度を用いれば、形容詞の係り先が85%の精度で決定できることが分かった。また、文型パターン検索のため、長文に強い2段トライ検索方式を発明した。 H10年度は、より汎用的な日本語表現の意味辞書作成を目指して、連鎖型/離散型共起表現抽出プログラムの基本試作を行い、共起表現抽出実験を行った。実験では、目標とする表現パターンが能率良く抽出できるようにするため、原文段階で種々の置き換え処理を行う方法を考案した。 そこで、H11年度は、(1)複数の名詞から構成される表現(名詞句)、(2)複数の動詞から構成される表現(重文/複文)の2種類の表現を対象に、最適な単語置き換え表を実験的に求めた。その結果、従来に比べて、表現パターンと見なせないようなごみの抽出を大幅に削減できるようになった。 また、大規模コーパスから、係り受け構造に着目して構造的類似文を発見する方法として、入力文と対応する係り受けペア数が最大となる組を発見するためのアルゴリズムを考案した。
|