2019 Fiscal Year Annual Research Report
Establishment of Automatic Word Segmentation Technology from Large-scale Text Data Independent of Language
Project/Area Number |
16K01267
|
Research Institution | Shonan Institute of Technology |
Principal Investigator |
鈴木 誠 湘南工科大学, 工学部, 教授 (80339796)
|
Co-Investigator(Kenkyū-buntansha) |
三川 健太 湘南工科大学, 工学部, 准教授 (40707733)
|
Project Period (FY) |
2016-04-01 – 2020-03-31
|
Keywords | 多言語処理 / 感情極性辞書 |
Outline of Annual Research Achievements |
本研究の目的は、Unicodeで表現された複数の言語が混在するテキストデータを、同一のプログラムで処理する単語分割技術を構築することである。この技術は、単純な状態遷移モデルに基づいた、各言語の辞書や文法知識を一切必要としない言語独立な単語分割方式であり、かつ口語体文書や古語も含めた世界中のあらゆる非分かち書き言語が混在している大規模なテキストデータも処理可能である。また、高性能なコンピュータではなく、一般の個人が使用するPCのレベルで動作可能である。そして、文書分類やWebマイニング、さらにはソーシャルメディア時代のマーケティング等の分野でも利用できるように発展させ、言語を問わず消費者の口コミ情報など口語調の単語や新語や流行語も発見し、マーケティングにも利用できるようにする。 本研究では、主に(1)処理対象となる言語の拡張、(2)適用事例の拡張、の2つの方向性を意識して研究を進めてきた。令和元年度は特に上記(2)の研究を進めた。その結果、商品や施設のユーザレビューを用いて感情極性辞書を自動的に作成する手法を提案することができた。感情極性辞書とは、文章に含まれる単語に対し、文中に含まれる特有の極性(ポジティブ、ネガティブ)を持つ単語が含まれているという考えに基づき、単語に対し極性値を与えた辞書である。今回は商品や施設のユーザレビュー(5段階の評価値付きのテキストデータ)を用いて、評価値に基づいて感情極性値を算出することにより、感情極性辞書を自動的に作成する手法を提案した。これにより、コンピュータが自動的にユーザレビューを収集し、ある商品や施設に特化した感情極性辞書を構成できる可能性を示唆することができた。 令和元年度の成果としては、3件の論文が論文誌に採録になり、国際会議で6件の論文を、国内の学会で2件の論文を口頭発表した。
|