2014 Fiscal Year Annual Research Report
大規模テキストデータ中の部分構造と稀少な複合パタンの階層的な発見
Project/Area Number |
24300059
|
Research Institution | Kyushu University |
Principal Investigator |
池田 大輔 九州大学, システム情報科学研究科(研究院, 准教授 (00294992)
|
Co-Investigator(Kenkyū-buntansha) |
中藤 哲也 九州大学, 学内共同利用施設等, 助教 (20253502)
山田 泰寛 島根大学, 総合理工学研究科(研究院), 助教 (50529609)
|
Project Period (FY) |
2012-04-01 – 2015-03-31
|
Keywords | テキストマイニング / 稀少パタン発見 / 例外パタン / 近似文字列照合 / purity |
Outline of Annual Research Achievements |
本研究では、頻出なパタンを組み合わせた非頻出なパタン発見の研究を行う。非頻出なパタン候補は多いが、頻出なサブパタンを組み合わせたパタンの頻度が相対的に多い(絶対的には少ない)ものを発見することで、意味のある非頻出なパタン=稀少パタンを発見する。 そのために、既に構築した例外文字列発見の枠組みを拡張することが基本的な方針であり、前年度までに生物情報学の国際会議及び論文誌で成果を発表した。これに加えて、昨年度から、テキストに塊として現われる部分パタンを含む大きなパタンを「純度が高いパタン(pure pattern)」として発見する枠組みを構築し、細菌のゲノム配列で有効性を確認していた。今年度は、ドメイン固有の知識として、pure patternの発生に関する簡単な仮定を置き、このようなパタンの頻度分布を予測した。具体的には、大きなパタンが部分パタンを含むかどうかの二項分布と考え、ある長さm以上であれば常に含まれるというパラメータを用意する。これにより、長さが与えられると、ある部分文字列の純度が測れる。15種の細菌のゲノムデータを用い、予測の分布と実際の頻度分布と比較することで、予測の有効性を示した(国際会議発表)。 また、他の分野のドメイン固有の知識として、位置情報付きのマイクロブログからの意味のあるクラスタの発見を行った。位置情報のみからなるクラスタリングに加え、固有の知識としてマイクロブログのテキストを用い、これにより、粒度の細かい階層的なクラスタが得られることを示した(国際会議発表)。
|
Research Progress Status |
26年度が最終年度であるため、記入しない。
|
Strategy for Future Research Activity |
26年度が最終年度であるため、記入しない。
|
Causes of Carryover |
26年度が最終年度であるため、記入しない。
|
Expenditure Plan for Carryover Budget |
26年度が最終年度であるため、記入しない。
|
Research Products
(4 results)
-
[Presentation] Unique Links as Weak Ties2015
Author(s)
Yasuhiro Yamada, Daisuke Ikeda and Sachio Hirokawa
Organizer
4th International Congress on Advanced Applied Informatics
Place of Presentation
岡山
Year and Date
2015-07-12 – 2015-07-16
-
-
-