[27年度内容を継続] 基礎データ(バイオリソース名、機関名)および「正解センテンス集合」(材料供与の記述が明確なセンテンス)の抽出はすでに報告の通り完了している。28年度は「正解センテンス集合」より抽出したパターンをもとに、二つの方法でバイオリソース名候補を拡張を行っている。バイオリソース名拡張の方法1(完了):後の4パターンに場合分けしそれぞれにおいて<リソース名>と<機関名>の中間に存在するフレーズを集計した。文章全体における出現頻度と、「正解センテンス集合」における出現頻度を比較し、検索用フレーズを構築した。この検索用フレーズを全文書の[謝辞セクション]および[材料セクション]において検索を完了した。バイオリソース名候補となるターム集合に対して、辞書を用いてセレクションを行った。パターン:(1)<機関名>...<バイオリソース名>/[材料セクション]、パターン(2):<機関名>...<バイオリソース名>/[謝辞セクション]、パターン(3):<バイオリソース名>...<機関名>/[材料セクション]、パターン(4):<バイオリソース名>...<機関名>/[材料セクション]。バイオリソース名拡張の方法2(未完):もう一つの拡張方法として、時間を考慮しないマルコフ連鎖を仮定した検索法を構築中。文章全体のバイグラム出現頻度と「正解センテンス集合」におけるそれとの比較を考慮する。タームに対してイン一種の「確からしさ」のデックスを与える。 [バイオリソース引用指標] 具体的な引用指標はまだ計算していない。機関名として述べ1022機関(ユニーク36機関)、リソース名として(第一回検索)述べ1369リソース(ユニーク445リソース)が抽出された。
|