• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

現代日本語電子化テキストの類型化とその利用上の問題点に関する基礎的研究

研究課題

研究課題/領域番号 17652038
研究種目

萌芽研究

配分区分補助金
研究分野 言語学
研究機関東北大学

研究代表者

後藤 斉  東北大学, 大学院文学研究科, 教授 (90162156)

研究期間 (年度) 2005 – 2006
研究課題ステータス 完了 (2006年度)
配分額 *注記
900千円 (直接経費: 900千円)
2006年度: 400千円 (直接経費: 400千円)
2005年度: 500千円 (直接経費: 500千円)
キーワード電子化テキスト / コーパス / 現代日本語 / 言語データ
研究概要

本年度の研究においては、研究実施計画に基づいて、前年度に行った研究を継続して電子化テキストの所在の把握およびテキストの形式的類型化を進め、さらに、言語的特徴による類型化を試み、問題点の整理を行った。
1.引き続き、電子化テキストの所在を把握するため、電子出版に関する調査およびネット上の状況の調査を行った。ネット上からは電子テキストの多様性を改めて確認した。電子出版については、前年の調査において既存のカタログから漏れているものが多いことがわかったため、確認できたテキストについてより包括的なリストを作成した。
2.このリストをもとにしてテキストの形式的類型化を進め、電子的なフォーマットとしてプレーンテキスト、種々のタグ付テキストファイル、pdf、独自形式があり、なかには言語データが画像として保存されているものもあることがわかった。とりわけ、pdfに関しては、セキュリティの設定が多様であることが特徴的である。
3.言語データとしての利用の観点からは、技術的な問題なく利用できるものから極めて困難なものまで多様であり、一様に捉えることができないことが確認できた。わかった。ジャンルとしては、電子出版およびネット上の状況の双方で、当初の予想通り大きな多様性が確認できた。ジャンルとしては、量的には新聞とコンピュータ分野の文献に大きく偏っているものの、文学、法律、哲学、時事問題などある程度の多様さが見られること、しかし電子化テキストが欠けている分野も多いことがわかった。
4.これらの結果として、多様な現代日本語の電子化テキストを研究に用いる上での問題点を技術的、言語的、実務的な観点から考察し、整理した。

報告書

(2件)
  • 2006 実績報告書
  • 2005 実績報告書
  • 研究成果

    (2件)

すべて 2007 2006

すべて 雑誌論文 (2件)

  • [雑誌論文] コンピュータによる言語とテキストの分析2007

    • 著者名/発表者名
      後藤 斉
    • 雑誌名

      フランス語学研究 第40号(印刷中)

    • 関連する報告書
      2006 実績報告書
  • [雑誌論文] コーパスを活用した日本語の研究2006

    • 著者名/発表者名
      後藤 斉
    • 雑誌名

      韓国日語日文学会2006年度夏季国際学術大会 -発表論文要旨集-

      ページ: 170-173

    • 関連する報告書
      2006 実績報告書

URL: 

公開日: 2005-04-01   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi