2015 Fiscal Year Research-status Report
ウェブコーパスを利用したヒンディー語・日本語の複合動詞の対照研究
Project/Area Number |
15K02517
|
Research Institution | Osaka University |
Principal Investigator |
西岡 美樹 大阪大学, 言語文化研究科(研究院), 講師 (30452478)
|
Project Period (FY) |
2015-04-01 – 2018-03-31
|
Keywords | 複合動詞 / ウェブコーパス / ヒンディー語 / 日本語 / 否定辞 / 共起制限 / 国際情報交換 / インド:アメリカ |
Outline of Annual Research Achievements |
まず技術、開発面では、4月に技術担当の研究協力者とともに、ヒンディー語のウェブコーパス構築の準備に着手した。具体的には、本ウェブコーパスの規模、収集法の詳細、POSタガーの選定、手順の確認を行った。次に、ウェブデータの収集に際して必要な作業(シードの作成とヒンディー語以外のウェブデータの排除)を、さらに7、8月には途中経過としてウェブデータの質の確認をしながら、対面で2度打ち合わせを行った。11月には、次年度に開発するコーパス検索ツールのプロトタイプとなる、簡易検索スクリプトの作成に打ち合わせを行った。その後、ウェブコーパスと検索スクリプトが完成した12月に試験運転をし、それぞれの動作確認を行った。その検索結果を吟味しながら1月に次年度のインターフェースの開発と付随する技術的問題の解決方法について議論した。 ウェブコーパスを構築する一方で、将来的にコーパスのバランスをとるのに必要な現代ヒンディー語の話し言葉コーパスを構築する準備を行った。具体的には8-9月のインド出張の際に、ヒンディー語母語話者である知己の研究協力者たちと、このコーパスの収集法、必要経費と遂行のために要する時間などについて打ち合わせをした。 本筋の言語研究については、前年度に上記研究協力者の協力を得、ウェブ上のヒンディー語の新聞記事をコーパスとして試験的に収集したものを利用し、日本語の「テ・しまう」と否定辞の共起制限について対照させた‘Restrictions on co-occurrence of ‘STEM + jaanaa’and negation in Hindi: a contrastive analysis with ‘-te + shimau’in Japanese’をSALA-31で発表した。また、その結果から得られたさらなる知見に関し、SALAの次回大会で発表する準備も行った。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
技術、開発面では、4月早々に技術担当の研究協力者と、ヒンディー語のウェブコーパス構築の準備に着手した。主に、本ウェブコーパスの規模、収集法の詳細、POSタガーの選定、手順の確認を行った。次にウェブデータの収集に際して必要な作業(シードの作成とヒンディー語以外のウェブデータの排除)を、さらに7、8月には途中経過を見ながらメールでやりとりをし、事前にウェブデータの質の確認をしながら、対面で2度打ち合わせをした。その後、次年度に開発するコーパス検索ツールのプロトタイプとなる、簡易検索スクリプトの作成にあたって11月に打ち合わせをし、ウェブコーパスと検索スクリプトが完成した12月には試験運転を行い、コーパスと検索スクリプトの動作確認をした。予定通り開発を一通り終えることができ、1月には次年度のインターフェースの開発と、それに付随する技術的問題の解決方法について事前に議論ができた。 研究面では、現代ヒンディー語の話し言葉コーパスを構築する準備として、ヒンディー語を母語とする研究協力者たちと話し言葉コーパスの収集法やそれにかかる経費、遂行のための時間などについて首尾よく打ち合わせができ、今後の協力体制を概ね整えられた。さらに言語研究面では、2014年度に前述の研究協力者の協力で、ウェブ上のヒンディー語の新聞記事を試験的に収集し作成したコーパスを利用し、日本語の「テ・しまう」と否定辞の共起制限と対照させた‘Restrictions on co-occurrence of ‘STEM + jaanaa’and negation in Hindi: a contrastive analysis with‘-te + shimau’in Japanese’を国際学会で発表でき、さらにこの試験的コーパスからヒンディー語の複合動詞の用法について新たな知見も得られた。
|
Strategy for Future Research Activity |
今後の研究の推進方策について、技術、開発面では、前年度できあがったヒンディー語のウェブコーパスのアノテーションおよびDevanagari文字の文字処理の問題を解決しながら、コーパスの加工(全文検索用の入力データの作成)と検索ツール(コンコーダンサ)の開発を行う。時期は7月を目途に開発を行い、9-10月ぐらいに開発版の公開を目指す。これに関連して、8月ぐらいをめどに公開用の英文のトップページを作成する。その後、利用者数を増やすため、使用マニュアルの作成も少しずつ進める予定である。なお、上述の通り、ウエブコーパスのアノテーションでタグに問題がいくつか見つかっており、今後も問題が出てくる可能性がある。その際に随時解決をする必要があるため、開発自体できるだけ早めに進める予定である。 また、書き言葉と話し言葉が混在した状態のウェブコーパスとは別に、ヒンディー語の話し言葉を補強するものとして、経費の許す範囲内でヒンディー語母語話者の協力者とともに、話し言葉コーパスの収集も徐々に行う予定である。 言語研究面では、ヒンディー語で一番使用頻度の高いものの一つである補助動詞jaanaa「行く」以外に、denaa「与える」、lenaa「取る」、rakhnaa「置く」の使用頻度、否定辞との共起などについて本コーパスを用いて調査し、どのような振る舞いをしているか、どのような制約、制限がかかっているかなどその実態を分析し、結果を順に公表する。また、日本語のテ形接続の補助動詞についても、ヒンディー語でも使用されているやりもらい動詞や「おく」などについて、既存の日本語のウェブコーパスを使って同様の調査をする予定である。
|
Causes of Carryover |
当初の予定では2015年度8-9月にインドに本科研費で出張する予定だったが、別用務と兼ねることができたため、おおよそ旅費相当の残額が発生した。
|
Expenditure Plan for Carryover Budget |
前年度の残額は、次年度以降に海外での成果公開のための研究会開催あるいは既存の研究会や学会に参加する経費に使用する予定である。また、一部をヒンディー語の話し言葉コーパス作成の経費に充てることも検討中である。
|
Remarks |
ウェブコーパスの公開のためのトップページへのリンク先
|
Research Products
(2 results)