• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2011 年度 実績報告書

古今東西の全言語を対象にしたテキストマイニングに関する研究

研究課題

研究課題/領域番号 22500140
研究機関湘南工科大学

研究代表者

鈴木 誠  湘南工科大学, 工学部・情報工学科, 准教授 (80339796)

キーワード多言語処理 / 機械学習 / モデル化 / テキストマイニング / 文書自動分類 / N-gram
研究概要

交付申請書に記載した「(1)処理対象となる言語の拡張」と「(2)基礎理論の構築」の二点について主に研究を進めた。
はじめに(1)については、その研究成果を英語の論文にまとめ、査読付きの国際学会であるICITA2011にて発表した(「13.研究発表(平成23年度の研究成果)」[雑誌論文]の欄を参照されたい)。これは、韓国語のハンギョレー新聞の記事を実験データとして用いて、昨年度のISITA2010で発表した手法により文書分類を行った結果をまとめたものである。韓国語の実験データに対して90.2%の精度で分類することができた。なお同様の方法で、英語のReuters-21578は94.5%、日本語の毎日新聞の実験データに対しては88.5%という比較的高い精度で分類できることが確認できている。さらに数ヶ月前の実験により、中国語に対しても92.6%の精度で分類できることがわかり、論文を投稿した。この論文は、現在審査中である。
次に(2)について述べる。現在、早稲田大学にて連携研究者の方々と定期的に研究会を開催しており、その研究会における成果を論文にまとめ、電子情報通信学会論文誌に投稿した。しかし、審査結果は残念ながら不採録となってしまった。今後、査読者に指摘された点を修正して、再投稿する予定である。また、簡易な状態遷移モデルを利用することにより、言語固有の文法知識を用いることなく、単語を切り出す手法を考案した。これは言語を問わず、日本語と中国語である程度の良い精度で単語を切り出せることが確認できた。この手法は言語独立な文書分類手法にも利用できる可能性が高いので、今後はこれまでの研究成果をさらに発展させていく予定である。

現在までの達成度 (区分)
現在までの達成度 (区分)

3: やや遅れている

理由

先の「9.研究実績の概要」に記した通り、投稿論文が不採録になってしまった。今後、論文をリバイスして再投稿する予定である。

今後の研究の推進方策

以下の「13.研究発表(平成23年度の研究成果)」[学会発表1の欄に記載した論文は、言語固有の文法知識を用いることなく、単語を切り出す手法を提案しており、これを利用して、これまでの研究成果をさらに発展させていく予定である。

  • 研究成果

    (3件)

すべて 2012 2011 その他

すべて 雑誌論文 (1件) (うち査読あり 1件) 学会発表 (1件) 備考 (1件)

  • [雑誌論文] Korean Text Categorization Using the Character N-gram2011

    • 著者名/発表者名
      M.Suzuki, N.Yamagishi, M.Goto
    • 雑誌名

      Proc.of International Conference on Information Technology and Applications (ICITA 2011)

      ページ: 197-202

    • 査読あり
  • [学会発表] 状態遷移モデルへの適応による教師なし単語分割手法の提案2012

    • 著者名/発表者名
      山岸直秀, 鈴木誠, 渡辺重佳
    • 学会等名
      日本経営工学会西関東支部第12回学生論文発表会
    • 発表場所
      早稲田大学
    • 年月日
      2012-02-19
  • [備考]

    • URL

      http://www.info.shonan-it.ac.jp/suzuki-lab/profile.html

URL: 

公開日: 2013-06-26  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi