規則性学習アルゴリズムによる言語習得のシミュレーション

研究課題

研究課題/領域番号	07610067
研究種目	一般研究(C)
配分区分	補助金
研究分野	実験系心理学
研究機関	東京大学
研究代表者	高野陽太郎東京大学, 大学院・人文社会系研究所, 助教授 (20197122)
研究期間 (年度)	1995
研究課題ステータス	完了 (1995年度)
配分額 *注記	2,300千円 (直接経費: 2,300千円) 1995年度: 2,300千円 (直接経費: 2,300千円)
キーワード	規則性学習 / 自然言語 / 人工文法 / シミュレーション
研究概要	予定の研究計画のうち本年度中に終了した作業のうち主なものは、シミュレーションの際の学習材料として用いる自然言語テキストのデータベースの作成と、学習アルゴリズムの効率の向上の2点である。前者については、小説等の自然言語(英語)テキストで既に電子化されているものをいくつかのソースより入手し、これをもとにデータベースを作成した。単語間の相関に基づいて、英語の文法規則を認識するオートマトンを学習する、というシミュレーションの目的から、文章の意味的なつながりに起因する相関が不必要に混入することは望ましくないと判断し、テキストは全てセンテンス単位に分解してデータベース化した。また、シミュレーションに必要な計算量、記憶容量が膨大なものになることを避けるため、データベース中の単語の出現頻度を調べ、出現頻度の低い単語を含むセンテンスは除外した。さらに学習材料として不適切と思われるような文法上の誤りや、誤植を含んだセンテンスは手作業で除外・修正した。このデータベースと、簡略化した学習アルゴリズムを使ったシミュレーション・プログラムで予備的なシミュレーションを行なった結果、ある程度の文法規則が学習されていることが確認できたが、同時に充分な学習を行なうためには速度面、および記憶容量の消費量について改善の必要があることも判明した。これらについては計算機の能力の増強や、シミュレーション・プログラムのプログラミング上の工夫によって、ある程度改善することが可能であるが、シミュレーション経過の分析から学習アルゴリズム自体の効率にも問題があることが考えられるため、同じ原理に基づく、より効率の高い学習アルゴリズムを作成した。

報告書

(1件)

1995 実績報告書