2011 Fiscal Year Research-status Report
文構造を考慮した日本語コロケーション情報の抽出とその応用
Project/Area Number |
23520640
|
Research Institution | Tokyo Metropolitan University |
Principal Investigator |
長谷川 守寿 首都大学東京, 人文科学研究科(研究院), 准教授 (50272125)
|
Project Period (FY) |
2011-04-28 – 2014-03-31
|
Keywords | コロケーション / 日本語 / 文構造 |
Research Abstract |
23年度は新聞データの整備を中心に行った。新聞データには、縮刷版にはない情報があり、それらを考慮してデータを準備する必要がある。例えば、新聞縮刷版で漢字についているルビは、文中に含まれている。また、誤った位置に改行が加えられ、縮刷版と比べた場合、おかしな文となっているものがある。さらに、開き括弧に対して、閉じ括弧が、改行記号の後から、次の改行記号の前までにないなどの問題も見られた。これらは、形態素解析や構文解析(特に引用文処理)などで、大きな問題をもたらすことが予想される。 そこで、それらの部分の修正を行い、データを準備する必要がある。修正に対しては、幾つかのパターンに分かれた。まず、ルビは、自動で削除することがほぼできた。例外となるのが、「枝野(さきがけ)」のように、「人名(所属名)」のパターンである。新聞縮刷版でルビがついている漢字は、CDでは「守寿(もりひさ)」のような形で入力されている。ここでは、意味処理を行っていないので、このような問題が生ずるが、このように例外となる出現は数が少なく、大きな問題にはならないと判断して、処理した。 次に、括弧の対応の問題であるが、対応していない部分を検出して、目で見て修正した。多くは、不必要である改行記号が入っていることによるためであり、それを削除することによって、一つの単位の中での対応関係を持たせることに成功した。しかし、これにも例外があり、引用文の中で、改行が加えられている場合では、括弧の種類によって異なる対応をとった。例えば、"『"・"』"は、手紙の引用などで使われているが、これらに関しては、対応がとれていなくても問題ないとした。それ以外の開き括弧("「"、"("、"<"など)と閉じ括弧("」"、")"、">"など)は対応がとれた形に修正した。 以上のように、データの特徴を調べ、研究に最適な形への変換方法を考察した。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
本研究では、当初は「現代日本語書き言葉均衡コーパス」(以後BCCWJと呼ぶ)を対象とする予定であったが、データが使えなかったことにより、研究が大幅に遅れてしまった。配布時期の問題とデータの形式・内容に関する問題から説明する。 まず、BCCWJのデータは2011年4月から配布される予定であったが、震災によるデータの検証などの問題から、実際には、検索用のサイトが公開されたのが、昨年の8月、DVDの形で全てのデータが入手できたのが、2012年の1月であった。 またデータの形式に関しても、予期せぬ事態が起きた。BCCWJ(モニター公開データ)では、文字コードがUTF-8で、テキストファイルでの公開であったため、処理も容易であろうと判断して計画を立てたためである。しかし、公開された形は、xml形式のみで、様々なタグが追加されており、現在のところ扱える代物ではないと判断した(もちろん、時間をかけて扱えるようにツール等を整える予定である)。 さらに、結果は実際の運用を反映しているとはいえ、現代語の教材作成を念頭に置いた本研究で使用するには、データの性質の問題があった。これは、BCCWJにはYahoo!知恵袋における質問と返答などが含まれているためであり、規範性という面で問題がある。また、発行・流通を基にサンプリングを行っていて、明治期のものまでも現代日本語として扱っている。これらを基に結果を出しても、日本語の教材に使用できるようなデータにはなり得ないであろうと判断した。 このように対象とするデータの検証に時間が掛かってしまい、遅れてしまった。
|
Strategy for Future Research Activity |
データの扱いやすさ、本文の性格など、上記のような理由で、研究対象をBCCWJから新聞データに変更する。 新聞データの整備法については、開発中のツールを、共有できるような形に仕上げていく予定である。 次にこれら修正されたデータを基に、文を、引用節とそれ以外に分けて抜き出すプログラムを作成する。引用節と、主節・従属節を分離して処理しなければ、コロケーションやNグラムなどで、不正確な情報が得られてしまうからである。 なお、コロケーションの抽出には、現在入手可能なChaki.Netを使用する予定であるが、構文解析を終了したデータの取り込みをどうするか、課題が残る。幾つか、便利なツールが開発されている模様であるが、公開時期とも関係するため、ツールの開発には常に関心を持っておく必要がある。
|
Expenditure Plans for the Next FY Research Funding |
本年度は、新聞記事データを追加で購入する予定である。BCCWJの入手にかかる費用がそれほど大きくなかったことと、謝金による新聞データのチェックにそれほど費用かかからなかったため、「次年度使用額」が大きく残ったので、これを使い購入する。すでに数年分所有しているが、それだけでは、データとして少ないので、新聞記事データを数年分購入する予定である。BCCWJの1億語に比べると、見劣りするが、少なくとも校正を経たデータならば、教育用のコロケーションを抽出するためのデータとしては、それほど大量である必要はないのではないかと思われる。
|