研究概要 |
プロジェクトの2年目である23年度は,「統計値の意味とその扱い」・「表現のバリエーションと対象の選択」の問題を中心に検討を行った。具体的には,コーパス(データ)の代表性,コーパス内・サブコーパス間での偏り,対象の選択・提示方法(分類のパラドックス),統計値の解釈と検定,"コロケーション"・"連想関係"の多義性,連想関係に関する計量的指標(主としてt-scoreとMI-score)の信頼性と妥当性について考察を行い,その成果の一部を「MI-score, t-scoreと"コロケーション"」という題目で英語コーパス学会第37回大会において発表した。 どの範囲の表現を対象とするかによって,出現頻度などの基礎的なデータも変わってしまうため,定量的分析においては,表現のバリエーションに配慮することは重要なことであるが,従来の語法文法研究で行われている分析に比べ,表現の変種への配慮が不十分と思われるケースが少なくないため,具体例を取り上げ,問題点の整理を行った。コーパスデータを処理する際,便宜的に言語学的分類の代わりに表記上の形式的分類を用いることがあるが,そのような処理方法に問題はないのか,さらに,コーパスの構造と言語変種の分離(付帯情報・タグ・コーディング,異質な言語変種の混在,メタな言語使用)の問題等についても検討を行った。 これらの成果の一部に関しては,24年度に公開予定(既に一部印刷中)である。
|
今後の研究の推進方策 |
基本的には計画通り進んでいるが,扱う事項は相互に関係したものであるため,最終年度の今年度は,これまでの成果を踏まえ研究を進めるだけでなく,逆に,これからの研究の内容を踏まえ,これまでの研究内容の再検討を行う。
|