2017 Fiscal Year Research-status Report
言語に依存しない大規模テキストデータからの自動単語分割技術の確立
Project/Area Number |
16K01267
|
Research Institution | Shonan Institute of Technology |
Principal Investigator |
鈴木 誠 湘南工科大学, 工学部, 教授 (80339796)
|
Co-Investigator(Kenkyū-buntansha) |
三川 健太 湘南工科大学, 工学部, 講師 (40707733)
|
Project Period (FY) |
2016-04-01 – 2019-03-31
|
Keywords | テキストマイニング / 多言語処理 / N-gram / 単語抽出 / 単語切り出し / 自動抽出 / 自動分割 |
Outline of Annual Research Achievements |
本研究の目的は、Unicodeで表現された複数の言語が混在するテキストデータを、同一のプログラムで処理する単語分割技術を構築することである。この技術は、単純な状態遷移モデルに基づいた、各言語の辞書や文法知識を一切必要としない言語独立な単語分割方式であり、かつ口語体文書や古語も含めた世界中のあらゆる非分かち書き言語が混在している大規模なテキストデータも処理可能である可能性が高い。 本研究では、1)処理対象となる言語の拡張、2)適用事例の拡張、3)基礎理論の構築、の3方向に研究を進めている。 平成29年度は、研究代表者の鈴木が中心となり、2)の方向性の研究として、青空文庫の小説を題材にして提案方式の特性を評価した。その結果、夏目漱石や森鴎外や芥川龍之介や福沢諭吉のように、ある程度の文書量があれば、高い精度で単語の自動分割を実現できることが分かった。一方で、宮沢賢治のような短編小説に対する単語分割はあまり得意でないことも判明した。この成果を国際会議(APIEMS2017)において発表した。 一方、研究分担者の三川が中心となり、2)と3)の方向性で研究を進めている。本年度の成果としては、2)の方向性で5件の論文が論文誌に採録になった。そのうちの2件は英文論文誌である。また、3)の方向性で3件の論文が論文誌に採録された。こちらも、うち2件が英文論文誌である。さらに、国際会議でも1件の論文を発表した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
研究実績の概要でも記述した通り、論文誌に8件の論文が掲載され、国際学会でも2件の論文を発表した。
|
Strategy for Future Research Activity |
今後は、提案手法を文書分類やWebマイニングやマーケティングなどの実問題へ適応していく予定である。
|
Causes of Carryover |
(理由)国際学会に参加するための旅費の一部を本学の助成金で賄うことができたため。
(使用計画)平成30年度分として請求した助成金の物品費と合わせて、実験用のパーソナルコンピューターを購入する予定である。
|