2016 Fiscal Year Research-status Report
言語に依存しない大規模テキストデータからの自動単語分割技術の確立
Project/Area Number |
16K01267
|
Research Institution | Shonan Institute of Technology |
Principal Investigator |
鈴木 誠 湘南工科大学, 工学部, 教授 (80339796)
|
Co-Investigator(Kenkyū-buntansha) |
三川 健太 湘南工科大学, 工学部, 講師 (40707733)
|
Project Period (FY) |
2016-04-01 – 2019-03-31
|
Keywords | テキストマイニング / 多言語処理 / N-gram / 単語抽出 / 単語切り出し / 自動抽出 / 自動分割 |
Outline of Annual Research Achievements |
本研究の目的は、Unicodeで表現された複数の言語が混在するテキストデータを、同一のプログラムで処理する単語分割技術を構築することである。この技術は、単純な状態遷移モデルに基づいた、各言語の辞書や文法知識を一切必要としない言語独立な単語分割方式であり、かつ口語体文書や古語も含めた世界中のあらゆる非分かち書き言語が混在している大規模なテキストデータも処理可能である可能性が高い。 本研究では、1)処理対象となる言語の拡張、2)適用事例の拡張、3)基礎理論の構築、の3方向に研究を進めている。 平成28年度は、本研究の基盤となる自動単語分割手法を論文にまとめ、英文の査読付論文誌(IEMS : Industrial Engineering & Management Systems誌)に採録され、言語固有の文法知識を一切利用しない言語独立な方式で、あらゆる非分かち書き言語が同一のプログラムで処理できることを示した。また1)の方向性の研究として、日本語の古典である源氏物語に対して本手法を適用し、有効性を示した。そして、この成果を国際会議(APIEMS2016)において発表した。 一方、3)の方向性で計量距離学習手法に関する研究を進めている。本年度の成果としては、日本経営工学会論文誌に査読付論文が採録になった。また、国際会議(APIEMS2016)においてもそれを発展させた手法を発表した。さらに、2)の方向性においてもAPIEMS2016において5件の論文を発表した。 現状では両者の研究が密に繋がっているとは言えないので、今後は研究体制を見直し、さらに研究を発展させていく予定である。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
交付申請書の平成28年度の研究実施計画に記載した通り、自動単語分割手法を論文にまとめ、国際学会の査読付論文誌(IEMS誌)に掲載された。また、日本経営工学会論文誌においても査読付論文が掲載され、国際会議(APIEMS2016)においても5件の論文を発表した。
|
Strategy for Future Research Activity |
今後は、提案した自動単語分割手法を、文書分類やWebマイニングやマーケティングなどの実問題へ適応していく予定である。
|
Causes of Carryover |
国際学会に参加するための旅費の一部を本学の助成金で賄うことができたため。
|
Expenditure Plan for Carryover Budget |
平成29年度分として請求した助成金の物品費と合わせて、実験用のパーソナルコンピューターを購入する予定である。
|