研究課題/領域番号 |
13F03303
|
研究種目 |
特別研究員奨励費
|
配分区分 | 補助金 |
応募区分 | 外国 |
研究分野 |
日本語学
|
研究機関 | 大阪大学 (2014) 大学共同利用機関法人人間文化研究機構国立国語研究所 (2013) |
研究代表者 |
田中 牧郎 (2013) 大学共同利用機関法人人間文化研究機構国立国語研究所, 言語資源研究系, 准教授
|
研究分担者 |
ホドシチェク ボル 大阪大学, 言語文化研究科(研究院), 講師 (10748768)
HODOSCEK Bor 大学共同利用機関法人人間文化研究機構国立国語研究所, 言語資源研究系, 外国人特別研究員
|
研究期間 (年度) |
2013-04-01 – 2015-03-31
|
研究課題ステータス |
完了 (2014年度)
|
配分額 *注記 |
1,600千円 (直接経費: 1,600千円)
2014年度: 1,100千円 (直接経費: 1,100千円)
2013年度: 500千円 (直接経費: 500千円)
|
キーワード | コーパス / レジスター / 通時的研究 / 近代日本語 / 現代日本語 / ジャンル / メタデータ / データマイニング |
研究実績の概要 |
「コーパスによる日本語のレジスターモデルの研究」では、明治時代から現代までの電子化データ(コーパス)におけるレジスター(特定の場面に使用される言語変種)の実態をモデル化し、検索可能にすることを目的とした。 レジスターのモデルを確立するために(1)『現代日本語書き言葉均衡コーパス』(BCCWJ)を用いて、レジスター分析に有効なメタデータ(各テキストの書誌情報:性別、メディア、ジャンルなど)を検出するデータマイニング手法を提案した。その結果、従来研究でよくレジスター比較のベースとなる書籍、雑誌、掲示板などといったメディアのラベル以外にもトピックや出版対象を表すメタデータが有効であることを確認した。また、(2)レジスターの言語特徴を通時的に研究するための中間語彙層に基づいたコーパス比較の手法を提案した。中間語彙層とは、個々の単語の情報量を計算し、その情報量の序列において中間に位置する語彙である。すなわち、特有のトピックに依存せず機能語でもない「中位語」を採用することで、この手法はより多くの通時的データに当てることができた。さらに、(3)日本語の複雑な表記システムにおけるレジスターの差異を計算可能にできる日本語の語彙特徴のオントロジー(概念大系)を試作した。 レジスターを通時と共時の側面から分析できるウエブベースのシステムは、上記の手法・モデルをBCCWJと『太陽コーパス』『明六雑誌コーパス』など明治時代を表すコーパスに当てて開発を行い、時代とレジスターを加味した検索方法が可能となった。
|
現在までの達成度 (段落) |
26年度が最終年度であるため、記入しない。
|
今後の研究の推進方策 |
26年度が最終年度であるため、記入しない。
|