• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2012 Fiscal Year Research-status Report

文構造を考慮した日本語コロケーション情報の抽出とその応用

Research Project

Project/Area Number 23520640
Research InstitutionTokyo Metropolitan University

Principal Investigator

長谷川 守寿  首都大学東京, 人文科学研究科, 准教授 (50272125)

Keywordsコロケーション抽出
Research Abstract

24年度は主に、コロケーションの抽出・抽出結果の検証の前に、コーパスデータの質的検討を行った。質的検討の対象は二種類のコーパスである。まず、新聞のデータに対して、一昨年の研究で明らかになった新聞コーパスの問題である、括弧の非対応、不適切な改行位置を元に、新聞コーパスには、実際にはどのようなデータが含まれているか、明らかにした。その結果、新聞コーパスには、小説が少なからず含まれていること、記事の中には、重複して収録されているものが存在することなどの問題が発見された。
以上のような問題が発見されたので、次に修正の結果が及ぼす影響について検証した。24年度は、ソフトウエアの動作確認なども兼ね、一年分の小説のデータを元に行った。手順としては、問題点の修正前のデータと修正後のデータを作成し、頻度の大きい動詞を中心としたコロケーション情報を抽出し、比較を行った。
次にBCCWJについても、改行を元に、複文を再構成するプログラムの作成と、BCCWJのコーパスとしての質的検討を行った。この結果、明らかになった点として、BCCWJに含まれるタグには、再帰的埋め込みを認めているものがあり、現在の完全な複文の復元は難しいことが分かった。また、BCCWJは、「現代書き言葉均衡コーパス」と呼ばれるが、「現代」はあくまでも、出版された年代であって、明治・大正期に書かれた作品などが収録されているため、今後、現代語のコロケーションを抽出していくのに、不適切と思われるデータも収録されていることが判明した。

Current Status of Research Progress
Current Status of Research Progress

3: Progress in research has been slightly delayed.

Reason

BCCWJのデータの特徴の把握に時間がかかった。使用されているタグに関する理解に時間がかかってしまったことが大きい。また、実際に複文を再構成してみたところ、想像以上に古いデータや、バラエティに富むデータが含まれていることが判明し、それらに対する統一した処理など、想定していない作業が多かった。
新聞データに関しては、ChaKi.NETを使用して、KWICデータを作成し、コロケーションを分析しているのだが、このアプリケーションの使用方法の習得に時間がかかってしまった。また、1年分の新聞のデータを対象として考えているのであるが、形態素解析をした結果が予想外に大きくなり、一つの処理を実行するのにかかる時間が大幅に伸びてしまった。そのためコンピュータ機器の入れ替えが必要になるなど、改善が必要になった。

Strategy for Future Research Activity

2種類のコーパスを対象に、過去2年質的検証を行ってきたが、いくつか問題点が明らかになり、教材作成用に使用すべきコーパスとしては、新聞記事データのほうが望ましいのではないかと思われる。
そこで今後は、新聞記事データを対象に、実際に教師が教えたいと考えるコロケーションが抽出できるのか、検証する。コーパスがあれば、コロケーションの抽出は自動で可能となるが、その結果をそのまま教えていいのか、検証するために、日本語教師が考える、日本語学習者に教えたいコロケーションと、現在存在するコーパスが提示するコロケーションでは、どのような違いが生じるのか明らかにする。さらに、この二つのものを近づける方法を検討する。これには、コーパスの問題と、日本語教師が作成した教科書の問題が考えられるが、コーパスの問題点として考察していく予定である。

Expenditure Plans for the Next FY Research Funding

新聞データの質的研究の一環として、データの形式の通年変化を観察しており、そのため本年度も新聞データの購入を予定している。また、質的研究のデータの公表に向けた、研究環境の整備を行う。そのため、サーバーの購入を予定している。さらにまた、コロケーションの抽出結果と、教科書とのチェックのために、アルバイトを雇う予定である。最後に研究成果をまとめた冊子の印刷にも、研究費を使用する予定である。

  • Research Products

    (2 results)

All 2013 Other

All Journal Article (1 results) Presentation (1 results)

  • [Journal Article] 「CD-毎日新聞データ集」に含まれるデータの特徴と使用上の注意点について2013

    • Author(s)
      長谷川守寿
    • Journal Title

      首都大学東京人文科学研究科「人文学報」

      Volume: 473 Pages: 31-49

  • [Presentation] 「CD-毎日新聞データ集」に含まれるデータの特徴について

    • Author(s)
      長谷川守寿
    • Organizer
      言語処理学会第19回年次大会
    • Place of Presentation
      名古屋大学

URL: 

Published: 2014-07-24  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi