研究課題/領域番号 |
25770178
|
研究種目 |
若手研究(B)
|
研究機関 | 大学共同利用機関法人人間文化研究機構国立国語研究所 |
研究代表者 |
小西 光 大学共同利用機関法人人間文化研究機構国立国語研究所, コーパス開発センター, プロジェクト非常勤研究員 (30646592)
|
研究期間 (年度) |
2013-04-01 – 2015-03-31
|
キーワード | 文章・文体 / コーパス / 近代語 / 翻訳小説 / 言文一致 |
研究概要 |
初年度となる本年度は,以下の3点を行った。 (1)明治期に出版・刊行された西洋文学翻訳資料の整理を『明治翻訳文学全集』(1294作品/篇)・国立国会図書館所蔵資料の近代デジタルライブラリー(914作品)中心に行い,言文一致体(口語文体)テキストの選定について再評価・再選定を行った。その結果として翻訳小説資料の選定は,当初の計画通りの資料で問題ないと判断した。 (2)コーパスサンプルとして明治20年代に発表された言文一致体翻訳小説(二葉亭四迷・森鴎外・内田魯庵の計7作品)をテキストデータ化・形態素解析し,文節情報を付与した。解析ミスについては,人手で順次修正中である。コーパス構築が本研究の主眼でもあるため,工数の大部分を本作業に費やしている。引き続きコーパスの精度向上と本コーパスのメインデータと対照予定のデータ拡充を図る予定である。現時点でおおよその作業が完了している『罪と罰』については,日本語学会にて中間的な発表及び論文による成果発表を行った。 (3)節情報の認定基準について日本語話し言葉コーパスに用いられた節分類基準をベースとしながらも,書き言葉の節分類並びに近代語に用いられる節分類を類型化し,先行研究との関連の中で基準策定を行っている。近代語のみならず,今後の通時的な文体研究に適当とされるアノテーション情報を考慮している。文体特徴を抽出するため,付与したアノテーションを用いてクラスター分析や主成分分析等統計手法を用いた分析を試みに行った。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
研究実績の概要でも述べている通り,(1) 本研究の重要な位置を占めるコーパスの構築・作業作業がおおむね順調に進行している。節情報付与の認定基準についてはまだ検討中の箇所もあるが,次年度へのコーパス完成へ向けてスムースに移行することが可能である。(2) すでに構築がほぼ終わっている『罪と罰』については,日本語学会2013秋季大会において調査報告発表をおこなった。(3) パイロット版の予備構築と調査については多少の遅れがみられるが,作業者の増加によってリカバリーが可能な範囲となっている。以上の点から,現時点で当該研究計画は概ね順調に進展していると言える。
|
今後の研究の推進方策 |
(1)初年度コーパスのデータ資料選定について充分な内省を行ったため,コーパスサンプルの充実をより図る予定である。またコーパスのアノテーション精度98%を目指す。(2)統計的手法に特化した文体研究のみならず,原文を重視した分析手法もあわせ,より分析手法を精緻化していく。具体的には文・節・文節・語の各レベルでの情報を有効に用い,マトリクスな分析手法を研究する。そこから不足しているアノテーションについても明らかにし,次の研究につなげていく。(3)SQLデータベースの設計と公開への準備が充分に行えるか懸念があるため,適宜専門とする研究者に助言をもらいながら遂行することとする.必要に応じて迅速に外部へ作業を委託する。
|
次年度の研究費の使用計画 |
次年度使用額が生じた理由については,作業者の確保の問題が最も大きかった。そのため,次年度に繰り越す必要性が発生した。 人手修正作業の謝金・人件費及びそのための物品費として用いることが主となる。
|