2011 Fiscal Year Annual Research Report
医療情報テキストを対象にしたノントピカルカテゴリに対する自動分類手法の基礎的研究
Project/Area Number |
22500220
|
Research Institution | Kyushu University |
Principal Investigator |
石田 栄美 九州大学, 附属図書館, 准教授 (50364815)
|
Keywords | ノントピカルカテゴリ / 医療情報 / テキスト自動分類 |
Research Abstract |
本研究では、ウェブ上の医療情報を対象にノントピカルカテゴリのラベルを付与することが目的である。研究計画の時点ではノントピカルカテゴリを想定していたが、実際の医療情報やユーザが求める情報に適したカテゴリを設定することが必要だと考えた。そのため、昨年度に引き続き、本年度も、ウェブ上の医療情報を対象に内容の評価や内容分析を行っている文献の調査を行い、ウェブ上の医療情報に対する有効なノントピカルカテゴリの設定について検討した。また、医療系の学術情報の収集のため、ある病名を表す語を用いて学術論文データベースから書誌情報及び抄録の収集を行った。これらのデータは、医療情報に対して専門的な内容と一般的な内容の差をみるために用いる予定である。 また、ノントピカルカテゴリとして「学術論文」を設定し、ウェブ上のPDFファイルを対象に学術論文が否かを判定する実験を行った。昨年度は、ウェブ上の検索エンジンのAPIを用いて収集した2万件の学習用データを用いて、複数の分類器による学術論文の自動判定を行った。今年度は、自動判定に用いたルールを、実験結果の誤り分析、および学術論文の構造などを改めて検証することにより、精緻化を行った。改めて実験したところ、改善ルールは以前より精度が高くなっていた。来年度は、この実験と同様のアプローチで、ウェブ上の医療情報を収集し学習用データを作成する予定である。収集した医療情報は、専門家向けと一般人向けとに分ける予定であるが、この学術論文の自動判定の成果を適用する予定である。
|
Current Status of Research Progress |
Current Status of Research Progress
4: Progress in research has been delayed.
Reason
ノントピカルカテゴリの例として始めた「学術論文」の自動判定に多くの時間がかかったためである。また、ウェブ上の医療情報の収集に使用する予定であった検索エンジンのAPIの利用条件や規則が大きく変わり、目的にそった形で使えなくなり、容易にウェブ上の情報の収集することが難しくなったためである。
|
Strategy for Future Research Activity |
早急に医療情報を対象に対するノントピカルカテゴリのラベル付けに関する実験環境を整え、実験を開始する。 また、大規模にウェブ上の情報を収集することが可能な検索エンジンAPI等を調査する。検索エンジンAPIの使用が難しいと判断した場合は、代替案を早急に考える。医療情報に限定するために、医療情報に関連する語で検索をした結果のウェブページ集合を対象にしていたが、代替案として、様々なタイプの医療情報が混在する集合を構築する方法を検討する。
|
Research Products
(8 results)
-
-
-
-
-
-
-
[Presentation] Detecting academic papers on the web2011
Author(s)
Emi Ishita, Teru Agata, Atsushi Ikeuchi, Yosuke Miyata, Shuichi Ueda
Organizer
Proceedings of Joint 11^<th> annual international ACM/IEEE joint conference on Digital Libraries (JCDL'11), pp.413-414
Place of Presentation
Ottawa, Ontario, Canada(査読有)
Year and Date
20110600
-