1995 Fiscal Year Annual Research Report
Project/Area Number |
07207236
|
Research Institution | Kwansei Gakuin University |
Principal Investigator |
雄山 真弓 関西学院大学, 情報処理研究センター, 教授 (90103134)
|
Co-Investigator(Kenkyū-buntansha) |
岡田 孝 関西学院大学, 情報処理研究センター, 教授 (00103135)
|
Keywords | 構文解析木 / 知識発見 / 多変量解析 / 人文データ / データマイニング / 時系列データ / 文学作品 / グラフ構造データ |
Research Abstract |
平成7年度は、下記のような項目について研究を行った。 1.テーブル形式を対象とした市販の知識発見用Datalogic/RおよびIDISを利用して、村上、金らによって得られた句点直前に存在する文字、文の長さ等のデータを解析した。その結果、作家の判別が通常の多変量解析法を用いるよりも、より直接的に理解しやすいかたちで得られることが判明した。また、解析を効率的に実行するためのパラメータ設定の方法を確認することができた。 2.上記の結果を視察する際に、ルールを散布図上で表現することが不可欠であることが判明した。そこで、ExcelとVisual Basicを用いて、ルールに対応する散布図およびクロス表を簡便に表示し、しかもその上にルール領域を表示するシステムDLXを作成した。 3.構文解析木をグラフ構造を有するデータと見なし、その構造を分析する方法を考察した。現段階では非常に少数の文例(朝日新聞の「天声人語」、「チンギスハーンの一族」、番組紹介欄の「ニュースステーション」、計24文)をもとに、文節単位の構文木を作成した。 4.木の構造を数値パラメータ化して、上述の知識発見法による解析を行った所、各記事の判別を実行すルールを導出できたが、文体としてどのような特徴を持つかという知見に結びつけるのは、若干困難であった。 5.木のトポロジーのみを手がかりとして、視点を根ノード、助詞「に」に置いて分類を行ったところ、天声人語、およびチンギスハーンについて非常に明確な文体的特徴を容易に導出することができた。さらに、チンギスハーンの文例から、助詞「が」と「は」の使い分け方についても、かなり明確な特色を発見することができた。 現在Windows上でC++により、これらの解析を実行するための、システムを開発中であり、完成後は、いくつかのコーパスを対象として、実際に解析を実行する予定である。
|