研究課題/領域番号 |
19K00695
|
研究機関 | 立命館大学 |
研究代表者 |
滝沢 直宏 立命館大学, 言語教育情報研究科, 教授 (60252285)
|
研究期間 (年度) |
2019-04-01 – 2023-03-31
|
キーワード | ly副詞 / 大規模コーパス / MyCo / Perlスクリプト |
研究実績の概要 |
2020年度には、過去数年間にわたってシステムエンジニア(西村祐一氏)に作成を依頼してきたMyCoというプログラムが完成し、研究科のコーパスサーバーで稼働させることができた。MyCoは、立命館大学で購入した諸コーパスから瞬時に語法文法上、有益な情報を高速に抽出する機能をもっている。そのコーパス自体も同じサーバーに載っているので、いわゆるコーパスの「ブラックボックス的利用」を避け、必要に応じて、元のテキストを直接、参照できる点に大きな特徴がある。大規模なコーパスから情報抽出しようとすると、どの現象であっても、時間がかかりすぎるという問題があるが、MyCoはRelational Databaseを用い、高速処理を実現してこの問題を解決した。 MyCoの開発・精緻化と並んで、Regex.pl、Picture.pl、ngram.plなど、比較的小さなPerl Scriptも作成・精緻化した(作成はMyCoと同じく西村祐一氏である)。これらは英語のどのテキストにも適用できるプログラムなので、後日、公開する。Regex.plは、テキスト中から指定した正規表現を含む箇所を、指定文字分だけ抽出するものである。そして、Picture.plは、Regex.plによって抽出された資料からpicture画面を作成する機能をもっている。ngram.plは、正規表現で指定した文字列を含むn語の連鎖を網羅的に抽出する機能をもっている。以上が、ly副詞研究に有益に利用なコーパスツール作成に関する成果である。 ly副詞自体の研究に関しては、現役の大学院生、修了生などとMailing List上で、語法文法のやり取りを毎週、欠かさず行い、特にly副詞に関して多くを議論するようにつとめている。ly副詞研究の方法については、滝沢 (印刷中)としてまとめている。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
「研究実績の概要」で述べた通り、2020年度は、コーパスツール作成・精緻化とサーバー上での稼働に大きな成果があった。コーパスツールの作成は、コーパスが巨大になった今日の状況においては、かなりのエネルギーを割くべき課題であった。これが実現したので、2021年度からはこれらのツールを最大限活用し、ly副詞の記述的研究を進めていく。 同時に毎週定期的に行っているMailing List上での語法文法上のやり取り(特にly副詞に注意している)も、毎週、欠かさず行うことができ、膨大な資料が蓄積できた。今度もこのML上でのやりとりは欠かさず行う予定である。
|
今後の研究の推進方策 |
「研究実績の概要」で述べた通り、2020年度は、コーパスツール作成・精緻化とサーバー上での稼働に大きな成果があった。2021年度からはこれらのツールを最大限活用し、ly副詞の記述的研究を進めていく。 毎週定期的に行っているMailing List上での語法文法上のやり取り(特にly副詞に注意している)も、毎週、欠かさず行う。その中から、ly副詞の語法文法上、問題になる課題を抽出し、解決を図る。なお、具体的ly副詞の語法文法的振る舞いだけではなく、特定のパターン中に生じやすいly副詞の認定も行う。その際、単純頻度だけではなく、MI-score, t-scoreなどの統計値も援用する。本研究は純粋に英語学的研究であるが、そこから得られた成果は英語教育にも役立てられる部分が多い。学習英文法の観点からも、科研の成果を見直す。 同時に、有益なPerlスクリプトの作成作業は今後も続けていく。本研究で開発したRegex.plは、普通のテキストを対象にしたものであるが、今後は、1行1語のテキストから情報を抽出するためのスクリプトの作成などが喫緊の課題である。 なお、研究成果は、順次、WWWで公開していく予定である。
|
次年度使用額が生じた理由 |
予定されていた出張、講演会の実施などが、コロナの関係で一切、実施できなかったため残額が生じた。また、研究科のコーパス整備予算から一部支出できたことも残額が生じた理由である。次年度は、コーパスツールの更なる精緻化、新たなツールの開発に加え、コロナの事情が改善すれば、ly副詞自体の研究に関係した(国内外の)出張を行う予定である。
|