• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

大規模かつ未知語を含むコーパスを対象にした固有名詞関係抽出に関する研究

研究課題

研究課題/領域番号 15500090
研究種目

基盤研究(C)

配分区分補助金
応募区分一般
研究分野 知能情報学
研究機関豊橋技術科学大学

研究代表者

梅村 恭司  豊橋技術科学大学, 工学部, 教授 (80273324)

研究期間 (年度) 2003 – 2004
研究課題ステータス 完了 (2004年度)
配分額 *注記
3,300千円 (直接経費: 3,300千円)
2004年度: 1,700千円 (直接経費: 1,700千円)
2003年度: 1,600千円 (直接経費: 1,600千円)
キーワードクラスタコンピュータ / 統計処理 / キーワード抽出 / 固有名詞 / 関連語 / シソーラス / 統計的言語処理
研究概要

本研究は、初年度にクラスタコンピュータの部品を購入し、ハードウェアとソフトウェアともに手作りでクラスタコンピュータを作成した。そのうえで、文書頻度を計測するシステムを構築したのが初年度の成果である。作業の多くは、いままでの既知の技術の組み合わせであったが、これによって、大規模な統計分析を行うための基礎環境が整備できた。具体的には、32bitの空間に入らないような量のテキストであっても、分担して頻度を計測し合算するようなシステムをライブラリとして整備できた。後半は、その成果を利用してサポートベクトルマシンの入力として、分析した結果を与えることで、文章のなかのキーワードを抽出する研究や、カルテ情報における関連病名を推定する研究が可能となった。サポートベクトルマシンの入力には、文書内で繰り返すことを反映した統計値を用いることを特徴にすることで、日本語でも中国でもキーワードとなりえる部分を検出するシステムが動作した。大規模なコーパスを用いるかわりに、辞書をまったく排除して、キーワード抽出ができるのは、他に例のないユニークな成果である。さらに、大規模なコーパスを対象にしたために、機械学習でキーワードを選び出すことに人手によるしきい値を排除できたこともユニークな成果である。関連病名の推定では、7年分の病院のカルテ情報を対象に分析を行うことができた。このような大規模な分析ができたのも、環境を整備したことによる貢献が大きい。

報告書

(3件)
  • 2004 実績報告書   研究成果報告書概要
  • 2003 実績報告書
  • 研究成果

    (16件)

すべて 2005 2004 2003 その他

すべて 雑誌論文 (12件) 文献書誌 (4件)

  • [雑誌論文] 医療情報システムのデータマイニングによる関連病名の発見2005

    • 著者名/発表者名
      Pattamon, 梅村
    • 雑誌名

      情報処理学会プログラミング・シンポジウム (口頭発表)

      ページ: 6-6

    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      2004 研究成果報告書概要
  • [雑誌論文] 頻度差が著しい場合における一対多関係を推定する類似尺度2005

    • 著者名/発表者名
      岡部, 梅村
    • 雑誌名

      情報処理学会2005年情報学シンポジウム (口頭発表)

      ページ: 8-8

    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      2004 研究成果報告書概要
  • [雑誌論文] 医療情報システムのデータマイニングによる関連病名の発見2005

    • 著者名/発表者名
      Pattamon, 梅村
    • 雑誌名

      情報処理学会プログラミング・シンポジウム 口頭発表

      ページ: 187-192

    • 関連する報告書
      2004 実績報告書
  • [雑誌論文] 頻度差が著しい場合における一対多関係を推定する類似尺度2005

    • 著者名/発表者名
      岡部, 梅村
    • 雑誌名

      情報処理学会2005 年情報学シンポジウム 口頭発表

      ページ: 129-136

    • 関連する報告書
      2004 実績報告書
  • [雑誌論文] SVMと一般化文書頻度によるキーワードの推定2004

    • 著者名/発表者名
      尾形, 寺尾, 梅村
    • 雑誌名

      言語処理学会第10回年次大会NLP2004併設ワークショップ固有表現と専門語抽出 (口頭発表)

      ページ: 4-4

    • NAID

      170000169384

    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      2004 研究成果報告書概要
  • [雑誌論文] Japanese Multiword Extraction using SVM and Adaptation2004

    • 著者名/発表者名
      T.Ogata, K.Terao, K.Umemura
    • 雑誌名

      LREC -2004 Workshop on Methodologies and Evaluation of Multiword Units in Real-world Applications (口頭発表)

      ページ: 4-4

    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      2004 研究成果報告書概要
  • [雑誌論文] Bigramの反復度を用いた技術用語抽出2004

    • 著者名/発表者名
      中瀬, 梅村
    • 雑誌名

      第46回デジタルドキュメント研究会 Vol.2004 No.97

      ページ: 6-6

    • NAID

      110002914320

    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      2004 研究成果報告書概要
  • [雑誌論文] SVMと一般化文書頻度によるキーワードの推定2004

    • 著者名/発表者名
      尾形, 寺尾, 梅村
    • 雑誌名

      言語処理学会第10回年次大会 NLP2004 併設ワークショップ固有表現と専門語抽出 口頭発表

      ページ: 44-47

    • NAID

      170000169384

    • 関連する報告書
      2004 実績報告書
  • [雑誌論文] Japanese Multiword Extraction using SVM and Adaptation2004

    • 著者名/発表者名
      T.Ogata, K.Terao, K.Umemura
    • 雑誌名

      LREC -2004 Workshop on Methodologies and Evaluation of Multiword Units in Real-world Application 口頭発表

      ページ: 8-11

    • 関連する報告書
      2004 実績報告書
  • [雑誌論文] Bigramの反復度を用いた技術用語抽出2004

    • 著者名/発表者名
      中瀬, 梅村
    • 雑誌名

      第46回デジタルドキュメント研究会 IPSJ-DD04046003 Vol.2004 No.97

      ページ: 15-20

    • NAID

      110002914320

    • 関連する報告書
      2004 実績報告書
  • [雑誌論文] 一大規模コーパスに対す計数手法る般化文書頻度の2003

    • 著者名/発表者名
      寺尾健一郎, 梅村恭司
    • 雑誌名

      情報処理学会夏のプログラミング・シンポジウム (口頭発表)

      ページ: 12-12

    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      2004 研究成果報告書概要
  • [雑誌論文] 一大規模コーパスに対す計数手法る般化文書頻度の計数手法2003

    • 著者名/発表者名
      寺尾健一郎, 梅村恭司
    • 雑誌名

      情報処理学会夏のプログラミング・シンポジウム 口頭発表

      ページ: 25-36

    • 関連する報告書
      2004 実績報告書
  • [文献書誌] Yinghuo XU, Kyoji Umemura: "Optimal Local Dimension Analysis of Latent Semantic Indexing Query NeighborSpace"IEICE TRANSACTIONS On Information and Systems. 第135号. 1762-1772 (2003)

    • 関連する報告書
      2003 実績報告書
  • [文献書誌] Yoshiyuki Takeda, Kyoji Umemura, Eiko Yamamoto: "Determining Indexing Strings with Statistical Analysis"IEICE TRANSACTIONS On Information and Systems. 第135号. 1781-1787 (2003)

    • 関連する報告書
      2003 実績報告書
  • [文献書誌] Junan Chakma, Kyoji Umemura: "Factor Controlled Hierarchical SOM Visualization for Large Set of Data"IEICE TRANSACTIONS On Information and Systems. 第135号. 1796-1803 (2003)

    • 関連する報告書
      2003 実績報告書
  • [文献書誌] 武田善行, 梅村恭司, 藤井 敦: "Webマイニング"共立出版. 197 (2004)

    • 関連する報告書
      2003 実績報告書

URL: 

公開日: 2003-04-01   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi