研究課題/領域番号 |
24650065
|
研究種目 |
挑戦的萌芽研究
|
配分区分 | 基金 |
研究分野 |
知能情報学
|
研究機関 | 九州大学 |
研究代表者 |
石井 久美子 (田中久美子 / 石井 久美子(田中久美子) / 田中 久美子) 九州大学, システム情報科学研究科(研究院, 教授 (10323528)
|
研究期間 (年度) |
2012-04-01 – 2016-03-31
|
研究課題ステータス |
完了 (2015年度)
|
配分額 *注記 |
3,900千円 (直接経費: 3,000千円、間接経費: 900千円)
2014年度: 1,690千円 (直接経費: 1,300千円、間接経費: 390千円)
2013年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円)
2012年度: 910千円 (直接経費: 700千円、間接経費: 210千円)
|
キーワード | 自然言語処理 / 形態素解析 / 教師無し学習 / 圧縮 / Bayes手法 / 教師なし機械学習 / パターン抽出 / オートマトン / 文書分割 |
研究成果の概要 |
与えられた文書に対して、目的に応じて文書内の単語単位を同定し、その範疇を定める処理は言語処理の要素技術である。たとえば、形態素解析の他、文書内の異言語部分を同定する処理などがある。本研究では、境界・範疇を同定する教師無し手法を考案する。三つの成果が得られた。第一に、文書内に埋め込まれた異言語部分を圧縮を用いて判定する方法を考案し、実用レベルにあることを示した。第二に、編集距離をBayes手法により拡張し、同じ意味を表す部分に対訳corpusを切り分ける方法を工夫した。第三に、最小オートマトンを用いて文のパターンを解析する手法を考案し、単位の切れ目と範疇を同定するための大規模な検証を行った。
|