規則性学習アルゴリズムによる言語習得のシミュレーション

Research Project

Project/Area Number	07610067
Research Category	Grant-in-Aid for General Scientific Research (C)
Allocation Type	Single-year Grants
Research Field	実験系心理学
Research Institution	The University of Tokyo
Principal Investigator	高野陽太郎東京大学, 大学院・人文社会系研究所, 助教授 (20197122)
Project Period (FY)	1995
Project Status	Completed (Fiscal Year 1995)
Budget Amount *help	¥2,300,000 (Direct Cost: ¥2,300,000) Fiscal Year 1995: ¥2,300,000 (Direct Cost: ¥2,300,000)
Keywords	規則性学習 / 自然言語 / 人工文法 / シミュレーション
Research Abstract	予定の研究計画のうち本年度中に終了した作業のうち主なものは、シミュレーションの際の学習材料として用いる自然言語テキストのデータベースの作成と、学習アルゴリズムの効率の向上の2点である。前者については、小説等の自然言語(英語)テキストで既に電子化されているものをいくつかのソースより入手し、これをもとにデータベースを作成した。単語間の相関に基づいて、英語の文法規則を認識するオートマトンを学習する、というシミュレーションの目的から、文章の意味的なつながりに起因する相関が不必要に混入することは望ましくないと判断し、テキストは全てセンテンス単位に分解してデータベース化した。また、シミュレーションに必要な計算量、記憶容量が膨大なものになることを避けるため、データベース中の単語の出現頻度を調べ、出現頻度の低い単語を含むセンテンスは除外した。さらに学習材料として不適切と思われるような文法上の誤りや、誤植を含んだセンテンスは手作業で除外・修正した。このデータベースと、簡略化した学習アルゴリズムを使ったシミュレーション・プログラムで予備的なシミュレーションを行なった結果、ある程度の文法規則が学習されていることが確認できたが、同時に充分な学習を行なうためには速度面、および記憶容量の消費量について改善の必要があることも判明した。これらについては計算機の能力の増強や、シミュレーション・プログラムのプログラミング上の工夫によって、ある程度改善することが可能であるが、シミュレーション経過の分析から学習アルゴリズム自体の効率にも問題があることが考えられるため、同じ原理に基づく、より効率の高い学習アルゴリズムを作成した。

Report

(1 results)

1995 Annual Research Report