2014 Fiscal Year Annual Research Report
Project/Area Number |
13F03303
|
Research Institution | Osaka University |
Co-Investigator(Kenkyū-buntansha) |
ホドシチェク ボル 大阪大学, 言語文化研究科(研究院), 講師 (10748768)
|
Project Period (FY) |
2013-04-01 – 2015-03-31
|
Keywords | コーパス / レジスター / 通時的研究 / 近代日本語 / 現代日本語 / ジャンル |
Outline of Annual Research Achievements |
「コーパスによる日本語のレジスターモデルの研究」では、明治時代から現代までの電子化データ(コーパス)におけるレジスター(特定の場面に使用される言語変種)の実態をモデル化し、検索可能にすることを目的とした。 レジスターのモデルを確立するために(1)『現代日本語書き言葉均衡コーパス』(BCCWJ)を用いて、レジスター分析に有効なメタデータ(各テキストの書誌情報:性別、メディア、ジャンルなど)を検出するデータマイニング手法を提案した。その結果、従来研究でよくレジスター比較のベースとなる書籍、雑誌、掲示板などといったメディアのラベル以外にもトピックや出版対象を表すメタデータが有効であることを確認した。また、(2)レジスターの言語特徴を通時的に研究するための中間語彙層に基づいたコーパス比較の手法を提案した。中間語彙層とは、個々の単語の情報量を計算し、その情報量の序列において中間に位置する語彙である。すなわち、特有のトピックに依存せず機能語でもない「中位語」を採用することで、この手法はより多くの通時的データに当てることができた。さらに、(3)日本語の複雑な表記システムにおけるレジスターの差異を計算可能にできる日本語の語彙特徴のオントロジー(概念大系)を試作した。 レジスターを通時と共時の側面から分析できるウエブベースのシステムは、上記の手法・モデルをBCCWJと『太陽コーパス』『明六雑誌コーパス』など明治時代を表すコーパスに当てて開発を行い、時代とレジスターを加味した検索方法が可能となった。
|
Research Progress Status |
26年度が最終年度であるため、記入しない。
|
Strategy for Future Research Activity |
26年度が最終年度であるため、記入しない。
|
Research Products
(4 results)