研究課題/領域番号 |
15H01883
|
研究機関 | 大学共同利用機関法人人間文化研究機構国立国語研究所 |
研究代表者 |
小木曽 智信 大学共同利用機関法人人間文化研究機構国立国語研究所, 言語変化研究領域, 准教授 (20337489)
|
研究分担者 |
松本 裕治 奈良先端科学技術大学院大学, 情報科学研究科, 教授 (10211575)
村上 謙 関西学院大学, 文学部, 教授 (20431728)
冨士池 優美 中央大学, 文学部, 准教授 (20510572)
鴻野 知暁 大学共同利用機関法人人間文化研究機構国立国語研究所, 言語変化研究領域, プロジェクトPDフェロー (30751515)
岡島 昭浩 大阪大学, 文学研究科, 教授 (50194345)
田中 牧郎 明治大学, 国際日本学部, 専任教授 (90217076)
高田 智和 大学共同利用機関法人人間文化研究機構国立国語研究所, 言語変化研究領域, 准教授 (90415612)
市村 太郎 常葉大学, 教育学部, 講師 (10701352)
|
研究期間 (年度) |
2015-04-01 – 2019-03-31
|
キーワード | 日本語史 / コーパス / アノテーション / 形態素解析 / 万葉集 / 近代語 / 日本語歴史コーパス / 自然言語処理 |
研究実績の概要 |
上代・和歌・近世・近代の4つのグループに分かれて、『日本語歴史コーパス』の多層的な情報付与に関する研究を行った。 上代グループでは、昨年度までに開発した『万葉集』の読み下し文と原文とのアライメントツールを用いて自動解析を行った後、コーパス構築用のデータベースに格納した。その後人手による修正作業を行い全体の80%程度の作業を完了した。開発した原文アライメントの技術は国語研で開発中のキリシタン資料と洒落本のコーパス化にも活用した。 和歌グループでは、本文整備に先立って、コーパスに付与するメタデータとして歌人情報データベースの作成を行った。 近世グループでは、近松の世話物浄瑠璃のうち、24作品について話者情報や掛詞のマークアップを行ったほか、4作品については形態論情報のアノテーションまで完了した。 近代グループでは、コーパス化の対象とする明治初期口語資料として9作品を選定し、全ての電子テキスト化を完了した。さらにその半分程度についてはXML化と形態論情報の付与を行った。また『安愚楽鍋』のデータ整備を進めたほか、『東洋学芸雑誌』のコーパス化について検討を行った。 以上の『日本語歴史コーパス』拡張作業と並行して、コーパスを活用した各時代の言語の研究等を進め、雑誌論文13本(ブックチャプターを含む)、学会発表10件(うち2件は国際学会)の研究成果を発表した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
万葉集の読み下し文と原文とのアライメントについては、ツール開発により十分な精度による自動処理が可能になった。自動処理結果を人手修正することで全体の80%程度についてアノテーションを終え、2017年度中に『日本語歴史コーパス』の一部としての公開できる見込みである。 和歌(八代集)テキストのXML化とアノテーションは万葉集の公開後に取り組む予定であるが、本文整備に先立ってコーパスに付与するメタデータとしての歌人データベースの整備を完了するなど順調に進捗している。 近世では、近松浄瑠璃のデータ整備とアノテーションをすすめ、24作品について話者情報や掛詞のマークアップが完了したほか、4作品については形態論情報のアノテーションまで完了した。 近代では、9作品を選定して「明治初期口語啓蒙書コーパス」として整備を進め、全体の半分程度についてXML化と形態論情報の付与を行ったほか、『安愚楽鍋』のデータ整備を進めた。 以上、日本語歴史コーパスの多層的拡張は全体としておおむね順調に進展している。
|
今後の研究の推進方策 |
「万葉集」「近松」「明治初期口語資料」のコーパス化については予定通りに進捗していることから、引き続き「日本語歴史コーパス」の拡張を行う。2017年度中に「万葉集」を公開した後に「八代集」に取り組むほか、近世の近松作品、近代の明治初期口語啓蒙書、『東洋学芸雑誌』についてコーパス化を進める。 同時に、新たに開発したコーパスを中心に「日本語歴史コーパス」を活用した日本語史研究を継続する。
|