2016 Fiscal Year Research-status Report
ウェブコーパスを利用したヒンディー語・日本語の複合動詞の対照研究
Project/Area Number |
15K02517
|
Research Institution | Osaka University |
Principal Investigator |
西岡 美樹 大阪大学, 言語文化研究科(言語社会専攻、日本語・日本文化専攻), 講師 (30452478)
|
Project Period (FY) |
2015-04-01 – 2018-03-31
|
Keywords | ヒンディー語 / 複合動詞 / コーパス / 自然言語処理 / 否定辞 / 語彙化 / 文法化 / jaanaa「行く」 |
Outline of Annual Research Achievements |
今年度は昨年度完成したヒンディー語のウェブコーパス(Corpus Of Spoken Hindi: COSH)の検索インターフェース(COSH Concordancer: COSH Conc)を開発し、コーパスとともに一般公開をした上でヒンディー語の複合動詞の研究を進めた。 4月には、10月公開を目指したウェブコーパス公開のための準備(ドメイン取得、サーバー契約など)に関する詳細な打ち合わせを研究協力者と行った。7月にもCOSHのトップページや実際の検索に必要なユーザーマニュアルの作成とその英語化について打ち合わせをした。9月にはベータ版を海外の研究協力者たちに内部公開し、動作確認を行い、11月に正式版を、海外の南アジア諸言語の研究者用メーリングリスト上で一般公開(国内向けは12月)した。 このように研究環境の整備を進めながら、一方でヒンディー語の複合動詞の補助動詞jaanaa「行く」に引き続き、denaa「与える」と否定辞の共起について研究を進めた。COSHが完成した9月後半から、これらの使用頻度とその使用されている環境についてCOSHから得たデータを解析することに着手した。 なお、補助動詞jaanaa「行く」については、初年度に発表した知見とCOSHのデータを合わせて、4月の国際会議(SALA-32)で、jaanaaの語彙化と文法化について発表をした。また5月にパリ第7大学でコーパスを使用した言語研究の例としてヒンディー語と日本語の複合動詞の対照研究について講演をした。 さらに、12月に計算言語学国際学会(COLING 2016)内で行われた南アジア・東南アジア自然言語処理ワークショップ(6th WSSANLP)で、ウェブコーパスの開発(ヒンディー語の文字処理、タガーとアノテーションの問題等)とコーパスを使った、複合動詞をはじめとした言語研究の可能性について発表をした。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本課題である複合動詞の補助動詞として主に使用されるのは、jaanaa「行く」、denaa「与える」とlenaa「取る」(日本語の授受動詞に類似)、そしてrakhnaa「置く」だが、初年度にウェブコーパスが完成した段階で、jaanaaと否定辞との共起(南アジア諸言語の先行研究では「共起しない」が定説となっている)が、実際は否定辞と共起していること、ただし共起する環境が(日本語でそれぞれ対応すると考えられる補助動詞並みに)ほぼ限定される傾向にあること、さらにjaanaaと否定辞が共起する場合、第一動詞によっては補助動詞が語彙化している可能性があることが、今年度までに明らかになっている。今年度後半からはdenaaの例をウェコーパスCOSHを使って調査しているが、特に日本語の授受動詞の中の「やる」や「あげる」と同じように受益の意で機能しているのかに着目して分析を行っている。 上記4つの補助動詞については、課題終了までに否定辞との共起例を統計的に概観し、日本語と照らし合わせて分析することを目指していたが、このように先行研究を覆す客観的事実が大量に(個々では気付いていた研究者もいたが、公に議論にのぼることはなかった)見つかっていることに鑑み、個々の補助動詞を精査しながら進めているため、計画当初の統計的分析のみでは済まなくなっている。しかし、本課題の複合動詞については、類型論的な視点から見た研究に大きく寄与しつつある。 一方で当初の計画以上に進展している点として、計算言語学および南アジアの自然言語処理分野で、ヒンディー語のウェブコーパスと検索インターフェースの開発、さらにこれらを応用した言語研究について発表したことがあげられる。これにより、南アジア諸言語の研究に計算言語学のアプローチを導入することで言語研究の新たな局面を国内外に知らしめることができたのは最も大きな成果といってよい。
|
Strategy for Future Research Activity |
最終年度は、jaanaaの次に使用頻度の高いといってよいdenaa「与える(やる/あげる)」について、否定辞との共起頻度と共起する環境のデータを元に、日本語の授受動詞のうち「やる/あげる」が付加する意味とヒンディー語のそれが異なっている点について国際学会で続けて発表する。 さらに、ヒンディー語の複合動詞で使用される補助動詞lenaa「とる」とrakhnaa「おく」についてもCOSHを利用して否定辞との共起頻度を調査し、共起している環境を分析する。一方で、日本語の「しまう」に続き、やりもらい動詞の「あげる」「もらう」または「とる」、「おく」に関してもそれぞれ否定辞との共起を手掛かりに共起頻度を調査し、共起する環境を分析する。ただし、個々の補助動詞の特色により、共起環境の分析には時間がかかる可能性が大きく、また母語話者である研究協力者たちとの議論が必要になることがこれまでの研究から予想されているため、本課題の研究期間内にはヒンディー語の補助動詞lenaaとrakhnaaがどの程度否定辞との共起しているか、その頻度を統計的に調査することを目指す。 また、今回開発し一般公開したウェブコーパスと検索インターフェース(COSH and COSH Conc)に関して、英語をあまり使わないヒンディー語研究者(日本語の国語学的研究者に相当)にも広く使用してもらい、海外でのヒンディー語研究を逆発信しすることで、議論の多角化を促し、最終的に類型論研究に寄与できるように努める。その一策として、研究協力者(ヒンディー語母語話者)の協力を得て、現在の英語版ウェブページをヒンディー語にし、年内に一般公開する予定である。 もう一点、COSHに自動翻訳機による不自然なヒンディー語データが紛れていることが海外のユーザーからのフィードバックでこれまでに判明しているため、その問題にも対処する予定である。
|
Causes of Carryover |
本課題について今年度も次年度使用額が生じた理由は、まずヒンディー語のウェブコーパスCOSHの検索用に開発を予定していたインターフェース(コンコーダンサ)が、開発者との交渉で当初予定していた金額(100万を想定)以内で収めることができたこと、さらにCOSH用にレンタルしたサーバーの代金には代表者の個人研究費(運営費交付金)を充てることができたためである。また、このコーパス並びにインダーフェースの開発と、これを応用した複合動詞を含む言語研究について発表するため、今年度初めには予想していなかった国際計算言語学会(COLING 2016)に12月に参加することになったが、開催地が近隣の大阪市内だったため、旅費も全くかからなかった。これらが今回次年度使用額が発生した理由である。
|
Expenditure Plan for Carryover Budget |
この次年度使用額も含む翌年度助成金については、まず5月の科研成果を国際学会で発表するため海外出張の旅費に使用する。同時に、COSHのウェブページ並びにユーザー・ガイドのヒンディー語版の作成する(英語→ヒンディー語の翻訳謝金、ウェブ画面作成費)作業に入ることになっている。さらにCOSHを使って研究を進め、その成果を随時公表する。そのため、英文校閲謝金あるいは旅費(国内での公表を想定)が必要となる。もう一点、9月に年次更新となるレンタル・サーバーのサーバー代(ヒンディー語で使用する文字データの容量が大きいため、英語等のコーパスに比べてレンタル代が高く、前年度実績で約10万円かかった)を、今年度は本科研費で賄う予定である。その他、研究に不足している関連書籍や研究遂行に必要な文房具等の物品を必要に応じて本科研費で購入する。
|
Remarks |
ヒンディー語ウェブコーパスと言語研究用検索インターフェース(コンコーダンサ) 日本国内外の南アジア諸語研究者に一般公開済(2016年11月21日)
|
Research Products
(9 results)