研究課題/領域番号 |
20K00542
|
研究機関 | 大阪大学 |
研究代表者 |
西岡 美樹 大阪大学, 言語文化研究科(言語社会専攻、日本語・日本文化専攻), 准教授 (30452478)
|
研究期間 (年度) |
2020-04-01 – 2023-03-31
|
キーワード | ツリーバンク / ヒンディー語 / 日本語 / とりたて詞 / 対照研究 / アノテーション / ウェブコーパス / 小詞 |
研究実績の概要 |
令和2年度はまず、ツリーバンク開発の段取りを行った。4月に開発担当の研究協力者とツリーバンクのアノテーションに使用するツールの選定と現在稼働しているWebコーパスCOSH(Corpus of Spoken Hindi)のデータの選別とサーバーの管理体制についてオンラインで打ち合わせをした。コーパスを使い南アジア諸語の言語研究を進めている研究協力者らともメールにて打ち合わせをし、その際、当初ツリーバンクのアノテーションに使用する予定だったMaltParser以外にもSpaCyやStanza等のツールがあることが判明したため、それらを使用することも視野に入れることにした。その後、研究代表者がCOSHのデータから、ヒンディー語のとりたて詞に相当する小詞(主に'hii', 'bhii', 'to'の3つ)を含むデータを吟味し選別し、業務委託でツリーバンクのアノテーション作業を行った。 他方、ヒンディー語と日本語の対照研究の準備も進めた。まず、Omkar N. Koul(2009)"Modern Hindi Grammar"に挙げられているとりたて詞のさまざまな例文を吟味し、これらとりたて詞が文のどの要素をとりたてているかに着目し統語的にパターン化した。そのパターンに沿って作例し、それに並行した日本語の逐語訳を作成した。日本語のとりたて詞は、「は」(対比の'to'に相当)、「も」('bhii'に相当)、「こそ」、「だけ」、「しか」(おおよそ'hii'に相当)である。これらの例文について、ヒンディー語のそれが文法的で意味を成しているか、日本語のとりたて詞を伴った逐語訳が同じ意味を成しているかについて、研究協力者Dr. Narsimhan(デリー大学)とオンラインで議論した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
研究面では、令和2年度は新型コロナウイルスの蔓延で海外に出向いての調査や打ち合わせはできなかったが、互いにZoomやGoogle MeetなどのWEB会議ツールを使用して調査や打ち合わせを行うことができた。研究協力者の側もオンライン授業に移行していたため、返って頻繁に打ち合わせをする機会が得られた。そのため、ヒンディー語のとりたて詞の機能全般や個々の使用例について、細かな意味の違いに触れ、さまざまな議論をすることができた。さらに、日本語におけるヒンディー語のとりたて詞に相当する例を観察し、実際に同じ意味を表わしうるか、表わしていない場合、どのような意味の違いが生じているか、ヒンディー語と同じ意味を出すにはどの方策を採るか等について議論を深めることもできた。 海外で予定されていた学会がオンライン開催される見込みが未だ立っていないため、海外での成果発表は2年目も困難かもしれないが、論文の形で発表できるよう、目下研究協力者と共同作業を進めている。 開発面では、初年度に予定していたCOSH(Corpus of Spoken Hindi)のデータの選別は、研究協力者の助言を得ながら代表者が行った。次にHindi Dependency TreeBank(HDTB)を用いて、構文解析パーサmaltparser のfeature model を作成し、そのデータに統語情報を付与した。ここまでが当初の予定だったが、同時にもう一つの構文解析パーサStanzaによるタグ付けをしたデータも作成した。現段階ではそれぞれのタグ付けされたデータを研究協力者らとともに精査中である。 予想外にコロナ禍が続くが、以上が、本研究は現段階でおおむね順調に進んでいるといえる理由である。
|
今後の研究の推進方策 |
令和3年度は、まずツリーバンクのデータを検索するためのインターフェースの開発の段取りをつける。前年度できたツリーバンクのアノテーション付きデータ二種類(MaltParserとStanzaで作成したもの)について、南アジア諸語の言語研究に携わり、コーパスを使った研究も進めている研究協力者らとともに吟味し、どちらのデータを採用するかを決定する。次に、そのデータを検索するのに適したインターフェースの開発について、開発担当の研究協力者と今年度の計画の打ち合わせをする。 本題の言語研究については、前年度に引き続き研究協力者のDr. Narsimhan(デリー大学)とともにヒンディー語と日本語の対照研究を進める。前年度にKoul(2009)のデータをもとに、とりたてる要素別に統語パターンを整理し、とりたて詞を含むヒンディー語の例文と、ヒンディー語のとりたて詞('to'、'bhii'、'hii')に意味的におおよそ相当する日本語のとりたて詞を含んだ日本語の逐語訳を対比し、それらが文法的に意味を成したものであるか、機能は同じといえるかについて、初年度に引き続き議論を行う。特にヒンディー語のとりたて詞が一文に二つ以上含まれるものについても取り扱う。ツリーバンクの検索用インターフェースが完成するまでに、研究協力者の協力を得ながら、とりたて詞二つ以上を含む文を統語面からパターン化する。また、とりたて詞とともにしばしば出現する否定辞との関係についても視野に入れる。 本研究で得られた成果は、状況が許せば主要な国際学会で発表できるように準備を行う。さらに修正を重ね国内外の学会誌等に投稿し、成果をその都度世界に発信できるように努める。また、ツリーバンクのデータと検索インターフェースも可能な限りインターネット上で一般公開できるようにする。
|
次年度使用額が生じた理由 |
研究開始時にコロナ禍が始まり、渡航予定国でのロックダウンを行ったため、海外調査が困難になった。そのため旅費を使用する必要がなくなったことが、今回残額が生じた大きな理由である。また、海外でのカンファレンスが軒並みキャンセルあるいは延期になったため、学会発表での投稿要旨を英文校閲にかけることもできなかった。さらに、初年度前半は教育のオンライン化に対応するのに予想外にエフォートが割かれたため、ツリーバンクの開発を除く研究開始が予定より遅れたことが、必要な書籍やPC、アクセサリ等購入にまで至らなかったことも、残額が発生した理由に含まれる。この残額は、次年度のツリーバンクの開発・運営に引き続き必要なレンタルサーバー代やサーバーの保守料等に充当する予定である。 本研究課題二年目は、初年度にできたツリーバンクのデータを検索するためのインターフェースを研究協力者らの協力を得て開発計画を立てる。インターフェースの開発自体は業者委託で行う予定である。一方で、研究に不足している書籍を購入する。また、研究遂行に必要なPC設備並びに研究打ち合わせに必要なネットワーク環境も併せて整える。 最終年度までにコロナ禍が鎮静化し、海外での国際会議が再開の目途が立てば、それらに応募し、海外渡航をして発表できるように努める。オンライン開催の国際会議に応募することも視野に入れて研究を進める。
|
備考 |
ツリーバンクのデータは、このウェブコーパスCOSHのデータの一部を使用している。
|