2004 年度研究成果報告書概要

大規模かつ未知語を含むコーパスを対象にした固有名詞関係抽出に関する研究

研究課題

研究課題/領域番号	15500090
研究種目	基盤研究(C)
配分区分	補助金
応募区分	一般
研究分野	知能情報学
研究機関	豊橋技術科学大学
研究代表者	梅村恭司豊橋技術科学大学, 工学部, 教授 (80273324)
研究期間 (年度)	2003 – 2004
キーワード	クラスタコンピュータ / 統計処理 / キーワード抽出 / Synonym
研究概要	本研究は、初年度にクラスタコンピュータの部品を購入し、ハードウェアとソフトウェアともに手作りでクラスタコンピュータを作成した。そのうえで、文書頻度を計測するシステムを構築したのが初年度の成果である。作業の多くは、いままでの既知の技術の組み合わせであったが、これによって、大規模な統計分析を行うための基礎環境が整備できた。具体的には、32bitの空間に入らないような量のテキストであっても、分担して頻度を計測し合算するようなシステムをライブラリとして整備できた。後半は、その成果を利用してサポートベクトルマシンの入力として、分析した結果を与えることで、文章のなかのキーワードを抽出する研究や、カルテ情報における関連病名を推定する研究が可能となった。サポートベクトルマシンの入力には、文書内で繰り返すことを反映した統計値を用いることを特徴にすることで、日本語でも中国でもキーワードとなりえる部分を検出するシステムが動作した。大規模なコーパスを用いるかわりに、辞書をまったく排除して、キーワード抽出ができるのは、他に例のないユニークな成果である。さらに、大規模なコーパスを対象にしたために、機械学習でキーワードを選び出すことに人手によるしきい値を排除できたこともユニークな成果である。関連病名の推定では、7年分の病院のカルテ情報を対象に分析を行うことができた。このような大規模な分析ができたのも、環境を整備したことによる貢献が大きい。

研究成果
(6件)

すべて 2005 2004 2003

すべて雑誌論文 (6件)

[雑誌論文] 医療情報システムのデータマイニングによる関連病名の発見2005
- 著者名/発表者名
  Pattamon, 梅村
- 雑誌名
  
  情報処理学会プログラミング・シンポジウム (口頭発表)
  
  ページ: 6
- 説明
  「研究成果報告書概要(和文)」より
[雑誌論文] 頻度差が著しい場合における一対多関係を推定する類似尺度2005
- 著者名/発表者名
  岡部, 梅村
- 雑誌名
  
  情報処理学会2005年情報学シンポジウム (口頭発表)
  
  ページ: 8
- 説明
  「研究成果報告書概要(和文)」より
[雑誌論文] SVMと一般化文書頻度によるキーワードの推定2004
- 著者名/発表者名
  尾形, 寺尾, 梅村
- 雑誌名
  
  言語処理学会第10回年次大会NLP2004併設ワークショップ固有表現と専門語抽出 (口頭発表)
  
  ページ: 4
- 説明
  「研究成果報告書概要(和文)」より
[雑誌論文] Japanese Multiword Extraction using SVM and Adaptation2004
- 著者名/発表者名
  T.Ogata, K.Terao, K.Umemura
- 雑誌名
  
  LREC -2004 Workshop on Methodologies and Evaluation of Multiword Units in Real-world Applications (口頭発表)
  
  ページ: 4
- 説明
  「研究成果報告書概要(和文)」より
[雑誌論文] Bigramの反復度を用いた技術用語抽出2004
- 著者名/発表者名
  中瀬, 梅村
- 雑誌名
  
  第46回デジタルドキュメント研究会 Vol.2004 No.97
  
  ページ: 6
- 説明
  「研究成果報告書概要(和文)」より
[雑誌論文] 一大規模コーパスに対す計数手法る般化文書頻度の2003
- 著者名/発表者名
  寺尾健一郎, 梅村恭司
- 雑誌名
  
  情報処理学会夏のプログラミング・シンポジウム (口頭発表)
  
  ページ: 12
- 説明
  「研究成果報告書概要(和文)」より

2004 年度 研究成果報告書概要

大規模かつ未知語を含むコーパスを対象にした固有名詞関係抽出に関する研究

研究代表者

梅村 恭司 豊橋技術科学大学, 工学部, 教授 (80273324)

研究成果

[雑誌論文] 医療情報システムのデータマイニングによる関連病名の発見2005

著者名/発表者名

雑誌名

説明

[雑誌論文] 頻度差が著しい場合における一対多関係を推定する類似尺度2005

著者名/発表者名

雑誌名

説明

[雑誌論文] SVMと一般化文書頻度によるキーワードの推定2004

著者名/発表者名

雑誌名

説明

[雑誌論文] Japanese Multiword Extraction using SVM and Adaptation2004

著者名/発表者名

雑誌名

説明

[雑誌論文] Bigramの反復度を用いた技術用語抽出2004

著者名/発表者名

雑誌名

説明

[雑誌論文] 一大規模コーパスに対す計数手法る般化文書頻度の2003

著者名/発表者名

雑誌名

説明

2004 年度研究成果報告書概要

梅村恭司豊橋技術科学大学, 工学部, 教授 (80273324)