2015 Fiscal Year Annual Research Report
言語統計解析に基づく日本語と中国語の帰納的推論の比較研究
Project/Area Number |
15H06637
|
Research Institution | Toho University |
Principal Investigator |
張 寓杰 東邦大学, 理学部, 博士研究員 (70759894)
|
Project Period (FY) |
2015-08-28 – 2017-03-31
|
Keywords | 帰納的推論 / 計算モデル / 比較 |
Outline of Annual Research Achievements |
1.中国語の言語コーパスを拡張した。現在使われているコーパスはChineseTreebank4.0 (2010取得)、人民日報タグ付きコーパス(1998)、新京報電子版(2010取得)、文学作品の電子テキスト(2010取得)、合計651.44MBであるが、近年はインターネットでブログ、SNS、ツイッターなどの利用者が急激に増加し、これらのデータを収集する必要がある。さらに、近年の新聞や文学作品のデータを増やし、より現実的に社会全体を反映するようにコーパスを拡張した。 2.中国語における形態素解析、係り受け解析、単語間共起頻度の抽出、Kameya and Sato(2005)のアルゴリズムに基づくクラスタリングの手順に従って確率的言語知識構造を構成した。まず上記の係り受け解析の結果得られた、「形容詞と名詞」、「名詞(目的語)と動詞」、「名詞(主語)と動詞(述語)」の各対について、2-3で全言語データ中の共起頻度を計算した。次に各対の共起頻度に基づき、2-4の方法を用いて各対の共起確率と各条件付き確率、潜在クラスの確率の最尤値を推定した。ここで「形容詞と名詞」、「名詞(目的語)と動詞」、「名詞(主語)と動詞(述語)」の各対について推定された条件付き確率と潜在クラスの確率の総体を確率的言語知識構造と呼ぶ。 3.中国語の確率的言語知識構造に基づき、中国語の帰納的推論の計算モデルを構成した。 4.中国人の実験参加者に対して予備心理学実験を実施し、シミュレーション結果と実験結果を定量的に比較し、計算モデルの妥当性を検証してみた。本研究で構築した新しい中国語のモデルの妥当性と先行研究、張ほか(2013)の中国語のモデルの妥当性を比較し、新しいモデルの優越性を検証した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
研究計画通りに、中国語のコーパスを拡張し、言語統計解析に基づき中国語の確率的言語知識構造を構成し、中国語の帰納的推論の計算モデルを構成した。中国人の実験参加者に対して予備心理学実験を実施し、シミュレーション結果と実験結果を定量的に比較し、計算モデルの妥当性を検証してみた。これから予備実験の結果に基づき、実験材料を改善し、本実験のための準備を行う予定なので、進歩状況はおおむね順調に進展していると考えられる。
|
Strategy for Future Research Activity |
1.中国人の実験参加者を募集し、心理学実験を実施する。 2.日本語に対しても中国語と同じように名詞と形容詞の関係を加え、確率的言語知識構造を構成し、帰納的推論の計算モデルを構築し、シミュレーションを行う。 3.日本語のモデルについても、シミュレーション結果と実験結果を比較し、モデルの妥当性を実証する。さらに先行研究と比較し新しいモデルの優越性を検証する。 4.先行研究の課題の事例を拡張し、より広い範囲で様々な分野の課題を選び、日本語と中国語各々の計算モデルに入力してシミュレーションを行い、その都度出力される単語の意味内容を比較することで、単なる心理学実験や調査研究では計り知れない、日本と中国、両国の文化や社会の特徴を、より幅広く比較考察する。すなわちこのようにして構成された、より精度の高い計算モデルとシミュレーションに基づき、全く新しい文化比較の客観的方法を提案する。
|
Research Products
(2 results)