2011 Fiscal Year Research-status Report

文構造を考慮した日本語コロケーション情報の抽出とその応用

Research Project

Project/Area Number	23520640
Research Institution	Tokyo Metropolitan University
Principal Investigator	長谷川守寿首都大学東京, 人文科学研究科(研究院), 准教授 (50272125)
Project Period (FY)	2011-04-28 – 2014-03-31
Keywords	コロケーション / 日本語 / 文構造
Research Abstract	23年度は新聞データの整備を中心に行った。新聞データには、縮刷版にはない情報があり、それらを考慮してデータを準備する必要がある。例えば、新聞縮刷版で漢字についているルビは、文中に含まれている。また、誤った位置に改行が加えられ、縮刷版と比べた場合、おかしな文となっているものがある。さらに、開き括弧に対して、閉じ括弧が、改行記号の後から、次の改行記号の前までにないなどの問題も見られた。これらは、形態素解析や構文解析（特に引用文処理）などで、大きな問題をもたらすことが予想される。　そこで、それらの部分の修正を行い、データを準備する必要がある。修正に対しては、幾つかのパターンに分かれた。まず、ルビは、自動で削除することがほぼできた。例外となるのが、「枝野（さきがけ）」のように、「人名（所属名）」のパターンである。新聞縮刷版でルビがついている漢字は、ＣＤでは「守寿（もりひさ）」のような形で入力されている。ここでは、意味処理を行っていないので、このような問題が生ずるが、このように例外となる出現は数が少なく、大きな問題にはならないと判断して、処理した。　次に、括弧の対応の問題であるが、対応していない部分を検出して、目で見て修正した。多くは、不必要である改行記号が入っていることによるためであり、それを削除することによって、一つの単位の中での対応関係を持たせることに成功した。しかし、これにも例外があり、引用文の中で、改行が加えられている場合では、括弧の種類によって異なる対応をとった。例えば、"『"・"』"は、手紙の引用などで使われているが、これらに関しては、対応がとれていなくても問題ないとした。それ以外の開き括弧（"「"、"（"、"＜"など）と閉じ括弧（"」"、"）"、"＞"など）は対応がとれた形に修正した。　以上のように、データの特徴を調べ、研究に最適な形への変換方法を考察した。
Current Status of Research Progress	Current Status of Research Progress 3: Progress in research has been slightly delayed. Reason 本研究では、当初は「現代日本語書き言葉均衡コーパス」（以後BCCWJと呼ぶ）を対象とする予定であったが、データが使えなかったことにより、研究が大幅に遅れてしまった。配布時期の問題とデータの形式・内容に関する問題から説明する。　まず、BCCWJのデータは2011年4月から配布される予定であったが、震災によるデータの検証などの問題から、実際には、検索用のサイトが公開されたのが、昨年の8月、DVDの形で全てのデータが入手できたのが、2012年の１月であった。　またデータの形式に関しても、予期せぬ事態が起きた。BCCWJ(モニター公開データ)では、文字コードがUTF-8で、テキストファイルでの公開であったため、処理も容易であろうと判断して計画を立てたためである。しかし、公開された形は、xml形式のみで、様々なタグが追加されており、現在のところ扱える代物ではないと判断した（もちろん、時間をかけて扱えるようにツール等を整える予定である）。　さらに、結果は実際の運用を反映しているとはいえ、現代語の教材作成を念頭に置いた本研究で使用するには、データの性質の問題があった。これは、BCCWJにはYahoo!知恵袋における質問と返答などが含まれているためであり、規範性という面で問題がある。また、発行・流通を基にサンプリングを行っていて、明治期のものまでも現代日本語として扱っている。これらを基に結果を出しても、日本語の教材に使用できるようなデータにはなり得ないであろうと判断した。　このように対象とするデータの検証に時間が掛かってしまい、遅れてしまった。
Strategy for Future Research Activity	データの扱いやすさ、本文の性格など、上記のような理由で、研究対象をBCCWJから新聞データに変更する。　新聞データの整備法については、開発中のツールを、共有できるような形に仕上げていく予定である。　次にこれら修正されたデータを基に、文を、引用節とそれ以外に分けて抜き出すプログラムを作成する。引用節と、主節・従属節を分離して処理しなければ、コロケーションやNグラムなどで、不正確な情報が得られてしまうからである。　なお、コロケーションの抽出には、現在入手可能なChaki.Netを使用する予定であるが、構文解析を終了したデータの取り込みをどうするか、課題が残る。幾つか、便利なツールが開発されている模様であるが、公開時期とも関係するため、ツールの開発には常に関心を持っておく必要がある。
Expenditure Plans for the Next FY Research Funding	本年度は、新聞記事データを追加で購入する予定である。BCCWJの入手にかかる費用がそれほど大きくなかったことと、謝金による新聞データのチェックにそれほど費用かかからなかったため、「次年度使用額」が大きく残ったので、これを使い購入する。すでに数年分所有しているが、それだけでは、データとして少ないので、新聞記事データを数年分購入する予定である。BCCWJの1億語に比べると、見劣りするが、少なくとも校正を経たデータならば、教育用のコロケーションを抽出するためのデータとしては、それほど大量である必要はないのではないかと思われる。