研究課題/領域番号 |
23520640
|
研究機関 | 首都大学東京 |
研究代表者 |
長谷川 守寿 首都大学東京, 人文科学研究科, 准教授 (50272125)
|
キーワード | コロケーション抽出 |
研究概要 |
24年度は主に、コロケーションの抽出・抽出結果の検証の前に、コーパスデータの質的検討を行った。質的検討の対象は二種類のコーパスである。まず、新聞のデータに対して、一昨年の研究で明らかになった新聞コーパスの問題である、括弧の非対応、不適切な改行位置を元に、新聞コーパスには、実際にはどのようなデータが含まれているか、明らかにした。その結果、新聞コーパスには、小説が少なからず含まれていること、記事の中には、重複して収録されているものが存在することなどの問題が発見された。 以上のような問題が発見されたので、次に修正の結果が及ぼす影響について検証した。24年度は、ソフトウエアの動作確認なども兼ね、一年分の小説のデータを元に行った。手順としては、問題点の修正前のデータと修正後のデータを作成し、頻度の大きい動詞を中心としたコロケーション情報を抽出し、比較を行った。 次にBCCWJについても、改行を元に、複文を再構成するプログラムの作成と、BCCWJのコーパスとしての質的検討を行った。この結果、明らかになった点として、BCCWJに含まれるタグには、再帰的埋め込みを認めているものがあり、現在の完全な複文の復元は難しいことが分かった。また、BCCWJは、「現代書き言葉均衡コーパス」と呼ばれるが、「現代」はあくまでも、出版された年代であって、明治・大正期に書かれた作品などが収録されているため、今後、現代語のコロケーションを抽出していくのに、不適切と思われるデータも収録されていることが判明した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
BCCWJのデータの特徴の把握に時間がかかった。使用されているタグに関する理解に時間がかかってしまったことが大きい。また、実際に複文を再構成してみたところ、想像以上に古いデータや、バラエティに富むデータが含まれていることが判明し、それらに対する統一した処理など、想定していない作業が多かった。 新聞データに関しては、ChaKi.NETを使用して、KWICデータを作成し、コロケーションを分析しているのだが、このアプリケーションの使用方法の習得に時間がかかってしまった。また、1年分の新聞のデータを対象として考えているのであるが、形態素解析をした結果が予想外に大きくなり、一つの処理を実行するのにかかる時間が大幅に伸びてしまった。そのためコンピュータ機器の入れ替えが必要になるなど、改善が必要になった。
|
今後の研究の推進方策 |
2種類のコーパスを対象に、過去2年質的検証を行ってきたが、いくつか問題点が明らかになり、教材作成用に使用すべきコーパスとしては、新聞記事データのほうが望ましいのではないかと思われる。 そこで今後は、新聞記事データを対象に、実際に教師が教えたいと考えるコロケーションが抽出できるのか、検証する。コーパスがあれば、コロケーションの抽出は自動で可能となるが、その結果をそのまま教えていいのか、検証するために、日本語教師が考える、日本語学習者に教えたいコロケーションと、現在存在するコーパスが提示するコロケーションでは、どのような違いが生じるのか明らかにする。さらに、この二つのものを近づける方法を検討する。これには、コーパスの問題と、日本語教師が作成した教科書の問題が考えられるが、コーパスの問題点として考察していく予定である。
|
次年度の研究費の使用計画 |
新聞データの質的研究の一環として、データの形式の通年変化を観察しており、そのため本年度も新聞データの購入を予定している。また、質的研究のデータの公表に向けた、研究環境の整備を行う。そのため、サーバーの購入を予定している。さらにまた、コロケーションの抽出結果と、教科書とのチェックのために、アルバイトを雇う予定である。最後に研究成果をまとめた冊子の印刷にも、研究費を使用する予定である。
|