研究課題/領域番号 |
23K17512
|
研究機関 | 大学共同利用機関法人高エネルギー加速器研究機構 |
研究代表者 |
田窪 洋介 大学共同利用機関法人高エネルギー加速器研究機構, 素粒子原子核研究所, 研究機関講師 (50423124)
|
研究期間 (年度) |
2023-06-30 – 2026-03-31
|
キーワード | 統計言語学 / 素粒子物理学 / 正規数 / ROOT |
研究実績の概要 |
本研究では、素粒子実験で用いられているデータ解析技術を、日本語テキストの数理解析に導入することを目的としている。令和5年度は、日本語テキストが含有する乱数性について、評価を行った。単語・形態素間の相関は乱数性の一種であり、これまで相互情報量や自己相関関数を用いた長相関解析が行われてきた。これは統計学の分野で一般的に用いられている手法だが、本研究ではより乱数性の評価に着目した手法である正規数性を調査した。具体的には、UTF-8、SJIS、EUCの文字コードを用いて、各文字を0と1のビット数表示に変換する。そして、その01のテキストをnビット毎に分割したときに、nビットに含まれる数がどれくらい均一であるかを調べた。もし分布が一様であればn進正規数と呼ばれ、nビットに含まれる数の出現頻度に偏りがないと結論できる。 本研究では、国語研究所のコーパスを用いて雑誌や新聞などのレジスタ毎に正規数性の違いを評価した。その結果、文字コードによらずレジスタによる正規数性の共通の傾向が確認された。これによって、正規数はレジスタを特徴づける指標となり得ることを示すことができた。また、各文字をシャッフルしたテキストを用意し、元のテキストの正規数分布と比較することも行った。その結果、シャッフル・テキストでは全てのレジスタにおいて、正規数分布の標準偏差が元のテキストのものよりも優位に小さい値を持つことが分かった。これは、文字がシャッフルされたことによって、テキスト中の文字の偏りがなくなったためであると結論できる。これまでテキストの正規数性を調査した研究はなく、本研究が初めての試みとなる。この結果を国際会議論文としてまとめ、現在査読を受けている。また、本研究では素粒子実験で用いられている数値計算ソフト(ROOT)を使用した。この研究を通して、言語研究におけるROOTの有効性を実証することができた。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
本研究では、単語の頻度順位分布について提唱されているZipf則などとの一致度合いをより正確な統計的手法によって評価すること、テキストが含有する乱数性について検定を試みること、言語解析に素粒子実験で用いられている数値計算ソフトであるROOTを導入することを目標としている。令和5年度は、本研究の最初の1年目であるが、この3つの目標の内、テキストの乱数性の検定とROOTの導入について達成することができた。従って、当初の計画以上に順調に研究が進展していると言える。
|
今後の研究の推進方策 |
今後は、単語の頻度順位分布について提唱されているZipf則などとの一致度合いをより正確な統計的手法によって評価することに取り組む。特に、テキスト・データの各点に付く誤差を正確に評価し、Zipf則などの模型とデータの一致度合いを定量的に議論する。また、テキストの乱数性について、正規数性以外の評価指標を導入することも考える。
|
次年度使用額が生じた理由 |
2023年度は日本テキストの正規数性の評価に取り組んだ。この研究は、本研究の最初の試みということもあり、研究の立ち上げに集中する必要があった。そのため、国際会議や海外研究機関との共同研究のための外国出張を最低限に抑えた。そのおかげで、本研究は順調に立ち上げることができたので、2024年からは国際会議での成果報告や海外研究機関との共同研究を積極的に行っていく。
|