2010 Fiscal Year Annual Research Report
医療情報テキストを対象にしたノントピカルカテゴリに対する自動分類手法の基礎的研究
Project/Area Number |
22500220
|
Research Institution | Surugadai University |
Principal Investigator |
石田 栄美 駿河台大学, メディア情報学部, 准教授 (50364815)
|
Keywords | ノントピカルカテゴリ / 医療情報 / テキスト自動分類 / 学術論文 |
Research Abstract |
本研究では、ウェブ上の医療情報を対象にノントピカルカテゴリのラベルを付与することが目的である。研究計画の時点ではノントピカルカテゴリを想定していたが、実際の医療情報やユーザが求める情報に適したカテゴリを設定することが必要だと考えた。そのため、本年度は、まず、ウェブ上の医療情報を対象に内容の評価や内容分析を行っている文献の調査を行い、どのような項目を用いてウェブ上の医療情報を評価しているかを調査した。今後は、ユーザがどのような情報を求めているかを調査した文献も検討し、適切なノントピカルカテゴリの検討を行う。 また、ノントピカルカテゴリとして「学術論文」を設定し、ウェブ上のPDFファイルを対象に学術論文が否かを判定する実験を行った。この実験では、まず、学習用データを作成するために、WordNet日本語版とIPAdicの両方にエントリされている名詞を検索語とし、ウェブ上の検索エンジンのAPI(Yahoo! Search BOSS)を用いて約660万件のURLを取得した。これらのURL集合からランダムに選択しダウンロード可能だった2万件に対して、学術論文か否かの判定を人手で行った。これらのデータを学習用データとして複数の分類器による学術論文の自動判定を行った。分類器に入力した特徴素は、ファイルの大きさ、ページ数、URLのドメインなどファイルの形態的属性と、論文の特徴を表すと考えられるファイル中に出現する特定の語である。来年度は、この実験と同様のアプローチで、ウェブ上の医療情報を収集し学習用データを作成する予定である。また、収集した医療情報は、専門家向けと一般人向けとに分ける予定であるが、この学術論文の自動判定の成果を適用する予定である。
|