研究課題/領域番号 |
17K13469
|
研究機関 | 東京大学 |
研究代表者 |
鴻野 知暁 東京大学, 大学院総合文化研究科, 助教 (30751515)
|
研究期間 (年度) |
2017-04-01 – 2021-03-31
|
キーワード | 日本語史 / 係り結び / コーパス / アノテーション |
研究実績の概要 |
本研究は、国立国語研究所の「日本語歴史コーパス」に対して係り結びの情報をアノテーションし、その情報を形態論情報と組み合わせて通時的な分析を行うものである。 申請者は、上代から中世の主な日本語資料に出現した係り結びの用例を、「日本語歴史コーパス」を用いて調査し、全ての時代に通用する係り結びアノテーションの基準を検討した。係り句と結び句の範囲指定には、コーパス内で永久に変わらず、一般の利用者に公開されている「位置ID」の情報を利用し、本研究で作成したアノテーションデータを、将来的に社会・国民に向けて発信できるように設計した。 この基準をもとに、アノテーション付与の仕様書を作成した。結びが流れる場合など係り結びの異例についての先行研究を参考にし、網羅性の高いものとなるよう注意した。 国立国語研究所の「日本語歴史コーパス 平安時代編」の長単位データを出力し、作業者によるマークアップ、および、申請者による確認作業を行った。『源氏物語』他、計5作品の係り結びアノテーションを実施し、データベースを作成した。本研究で付与された係り結び情報は、遠く離れた位置の呼応関係をとらえることができ、従来の「日本語歴史コーパス」では検索不可能だった情報を提供する。また、係り結び情報は、国立国語研究所による形態論情報と組み合わせて参照することができ、広範な資料に対して計量的な分析が可能となった。 以上のデータベース開発と並行して、上代で逆接句として働くコソの係り結びについて、修辞性の観点から考察を行い、研究成果を学会で発表した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
申請者が作成したアノテーション付与の仕様書を元にして、作業者がデータベースを作成した。申請者とアノテーション作業者は連絡を密に取り、処理が困難な箇所を相談し、アノテーション付与の仕様書を改良していった。結びが流れる場合、また、係助詞が重複する場合にどうアノテーションを行うかということが検討事項として上がったが、それぞれに対して妥当な処理方法を提示した。現段階で、中古資料のアノテーションは問題なく行えている。 アノテーションの種類として、1.長単位をベースとした係り句と結び句の範囲、2.係助詞と共起する疑問語、3.係り結びとその後続句との接続関係(「逆接」と「注釈」)といった情報をコーパスデータに付与した。 『源氏物語』のアノテーション作業が完了した段階で、異なる時代・ジャンルの作品を作業対象として選定した。このうち、『竹取物語』、『枕草子』、『土佐日記』、『古今和歌集』の4作品の係り結びアノテーションが完了した。 アノテーションの内容、付与対象ともに、研究計画通りに行えている。以上、研究計画の全体としてはおおむね順調に進展している。
|
今後の研究の推進方策 |
国立国語研究所から「日本語歴史コーパス 奈良時代編」として公開されている、『万葉集』のコーパス(約10 万語)へのアノテーションを開始する。申請者は引き続き作業の管理と入力内容の確認に当たる。中古資料と異なるアノテーション基準が出てきた場合、仕様書の見直しを行う。 上代・中古のコーパスへのアノテーションが終わった段階で、それらのコーパスの形態論情報と係り結び情報とを組み合わせて計量的分析を行い、研究成果を学会で発表する。 引き続いて中世のコーパスへのアノテーションを行う。院政期~鎌倉時代の作品のうち、語数が多く和漢混淆文である『今昔物語集本朝部』(約50 万語)を対象とし、係り結び情報を付与する。文体的に仮名文学作品により近く、和文的な性格の強い『宇治拾遺物語』(約10 万語)を作業対象に追加し、文体的に異なりのある資料をバランスよく扱う。 各時代のコーパスへのアノテーションと併行して通時的な分析を行い、論文を執筆し投稿する。 以上の作業で作成されたデータは、他の研究者にも利用可能な形でWeb 上で公開する予定である。
|