研究課題/領域番号 |
15500090
|
研究種目 |
基盤研究(C)
|
配分区分 | 補助金 |
応募区分 | 一般 |
研究分野 |
知能情報学
|
研究機関 | 豊橋技術科学大学 |
研究代表者 |
梅村 恭司 豊橋技術科学大学, 工学部, 教授 (80273324)
|
研究期間 (年度) |
2003 – 2004
|
研究課題ステータス |
完了 (2004年度)
|
配分額 *注記 |
3,300千円 (直接経費: 3,300千円)
2004年度: 1,700千円 (直接経費: 1,700千円)
2003年度: 1,600千円 (直接経費: 1,600千円)
|
キーワード | クラスタコンピュータ / 統計処理 / キーワード抽出 / 固有名詞 / 関連語 / シソーラス / 統計的言語処理 |
研究概要 |
本研究は、初年度にクラスタコンピュータの部品を購入し、ハードウェアとソフトウェアともに手作りでクラスタコンピュータを作成した。そのうえで、文書頻度を計測するシステムを構築したのが初年度の成果である。作業の多くは、いままでの既知の技術の組み合わせであったが、これによって、大規模な統計分析を行うための基礎環境が整備できた。具体的には、32bitの空間に入らないような量のテキストであっても、分担して頻度を計測し合算するようなシステムをライブラリとして整備できた。後半は、その成果を利用してサポートベクトルマシンの入力として、分析した結果を与えることで、文章のなかのキーワードを抽出する研究や、カルテ情報における関連病名を推定する研究が可能となった。サポートベクトルマシンの入力には、文書内で繰り返すことを反映した統計値を用いることを特徴にすることで、日本語でも中国でもキーワードとなりえる部分を検出するシステムが動作した。大規模なコーパスを用いるかわりに、辞書をまったく排除して、キーワード抽出ができるのは、他に例のないユニークな成果である。さらに、大規模なコーパスを対象にしたために、機械学習でキーワードを選び出すことに人手によるしきい値を排除できたこともユニークな成果である。関連病名の推定では、7年分の病院のカルテ情報を対象に分析を行うことができた。このような大規模な分析ができたのも、環境を整備したことによる貢献が大きい。
|