• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

現代日本語電子化テキストの類型化とその利用上の問題点に関する基礎的研究

Research Project

Project/Area Number 17652038
Research Category

Grant-in-Aid for Exploratory Research

Allocation TypeSingle-year Grants
Research Field Linguistics
Research InstitutionTohoku University

Principal Investigator

後藤 斉  東北大学, 大学院文学研究科, 教授 (90162156)

Project Period (FY) 2005 – 2006
Project Status Completed (Fiscal Year 2006)
Budget Amount *help
¥900,000 (Direct Cost: ¥900,000)
Fiscal Year 2006: ¥400,000 (Direct Cost: ¥400,000)
Fiscal Year 2005: ¥500,000 (Direct Cost: ¥500,000)
Keywords電子化テキスト / コーパス / 現代日本語 / 言語データ
Research Abstract

本年度の研究においては、研究実施計画に基づいて、前年度に行った研究を継続して電子化テキストの所在の把握およびテキストの形式的類型化を進め、さらに、言語的特徴による類型化を試み、問題点の整理を行った。
1.引き続き、電子化テキストの所在を把握するため、電子出版に関する調査およびネット上の状況の調査を行った。ネット上からは電子テキストの多様性を改めて確認した。電子出版については、前年の調査において既存のカタログから漏れているものが多いことがわかったため、確認できたテキストについてより包括的なリストを作成した。
2.このリストをもとにしてテキストの形式的類型化を進め、電子的なフォーマットとしてプレーンテキスト、種々のタグ付テキストファイル、pdf、独自形式があり、なかには言語データが画像として保存されているものもあることがわかった。とりわけ、pdfに関しては、セキュリティの設定が多様であることが特徴的である。
3.言語データとしての利用の観点からは、技術的な問題なく利用できるものから極めて困難なものまで多様であり、一様に捉えることができないことが確認できた。わかった。ジャンルとしては、電子出版およびネット上の状況の双方で、当初の予想通り大きな多様性が確認できた。ジャンルとしては、量的には新聞とコンピュータ分野の文献に大きく偏っているものの、文学、法律、哲学、時事問題などある程度の多様さが見られること、しかし電子化テキストが欠けている分野も多いことがわかった。
4.これらの結果として、多様な現代日本語の電子化テキストを研究に用いる上での問題点を技術的、言語的、実務的な観点から考察し、整理した。

Report

(2 results)
  • 2006 Annual Research Report
  • 2005 Annual Research Report
  • Research Products

    (2 results)

All 2007 2006

All Journal Article (2 results)

  • [Journal Article] コンピュータによる言語とテキストの分析2007

    • Author(s)
      後藤 斉
    • Journal Title

      フランス語学研究 第40号(印刷中)

    • Related Report
      2006 Annual Research Report
  • [Journal Article] コーパスを活用した日本語の研究2006

    • Author(s)
      後藤 斉
    • Journal Title

      韓国日語日文学会2006年度夏季国際学術大会 -発表論文要旨集-

      Pages: 170-173

    • Related Report
      2006 Annual Research Report

URL: 

Published: 2005-04-01   Modified: 2016-04-21  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi