Statistical analysis of Japanese texts with application of analysis technique used in high energy physics

Research Project

Project/Area Number	23K17512
Research Category	Grant-in-Aid for Challenging Research (Exploratory)
Allocation Type	Multi-year Fund
Review Section	Medium-sized Section 2:Literature, linguistics, and related fields
Research Institution	High Energy Accelerator Research Organization
Principal Investigator	田窪洋介大学共同利用機関法人高エネルギー加速器研究機構, 素粒子原子核研究所, 研究機関講師 (50423124)
Project Period (FY)	2023-06-30 – 2026-03-31
Project Status	Granted (Fiscal Year 2023)
Budget Amount *help	¥6,370,000 (Direct Cost: ¥4,900,000、Indirect Cost: ¥1,470,000) Fiscal Year 2025: ¥1,690,000 (Direct Cost: ¥1,300,000、Indirect Cost: ¥390,000) Fiscal Year 2024: ¥2,470,000 (Direct Cost: ¥1,900,000、Indirect Cost: ¥570,000) Fiscal Year 2023: ¥2,210,000 (Direct Cost: ¥1,700,000、Indirect Cost: ¥510,000)
Keywords	統計言語学 / 素粒子物理学 / 正規数 / ROOT / 日本語テキスト / 素粒子 / 統計学 / 乱数
Outline of Research at the Start	近年コーパスを用いたテキストの数理的解析が活発に行われており、テキスト中の単語の出現頻度などについて、さまざまな法則が提唱されている。一方で、数学や統計学を積極的に活用したテキストの数理解析は限定的となっている。特に、日本語での研究については数理解析の例が少なく、まだ大きな発展の余地が残されている。本研究では、素粒子実験においてデータと物理モデルの一致度合いを評価するめに用いられている統計的手法を、日本語テキストにおける数理的分析に応用するための研究を行う。それより、言語学の数理的研究手法に新たな発展をもたらすことを目指す。
Outline of Annual Research Achievements	本研究では、素粒子実験で用いられているデータ解析技術を、日本語テキストの数理解析に導入することを目的としている。令和5年度は、日本語テキストが含有する乱数性について、評価を行った。単語・形態素間の相関は乱数性の一種であり、これまで相互情報量や自己相関関数を用いた長相関解析が行われてきた。これは統計学の分野で一般的に用いられている手法だが、本研究ではより乱数性の評価に着目した手法である正規数性を調査した。具体的には、UTF-8、SJIS、EUCの文字コードを用いて、各文字を0と1のビット数表示に変換する。そして、その01のテキストをnビット毎に分割したときに、nビットに含まれる数がどれくらい均一であるかを調べた。もし分布が一様であればn進正規数と呼ばれ、nビットに含まれる数の出現頻度に偏りがないと結論できる。本研究では、国語研究所のコーパスを用いて雑誌や新聞などのレジスタ毎に正規数性の違いを評価した。その結果、文字コードによらずレジスタによる正規数性の共通の傾向が確認された。これによって、正規数はレジスタを特徴づける指標となり得ることを示すことができた。また、各文字をシャッフルしたテキストを用意し、元のテキストの正規数分布と比較することも行った。その結果、シャッフル・テキストでは全てのレジスタにおいて、正規数分布の標準偏差が元のテキストのものよりも優位に小さい値を持つことが分かった。これは、文字がシャッフルされたことによって、テキスト中の文字の偏りがなくなったためであると結論できる。これまでテキストの正規数性を調査した研究はなく、本研究が初めての試みとなる。この結果を国際会議論文としてまとめ、現在査読を受けている。また、本研究では素粒子実験で用いられている数値計算ソフト(ROOT)を使用した。この研究を通して、言語研究におけるROOTの有効性を実証することができた。
Current Status of Research Progress	Current Status of Research Progress 1: Research has progressed more than it was originally planned. Reason 本研究では、単語の頻度順位分布について提唱されているZipf則などとの一致度合いをより正確な統計的手法によって評価すること、テキストが含有する乱数性について検定を試みること、言語解析に素粒子実験で用いられている数値計算ソフトであるROOTを導入することを目標としている。令和5年度は、本研究の最初の1年目であるが、この3つの目標の内、テキストの乱数性の検定とROOTの導入について達成することができた。従って、当初の計画以上に順調に研究が進展していると言える。
Strategy for Future Research Activity	今後は、単語の頻度順位分布について提唱されているZipf則などとの一致度合いをより正確な統計的手法によって評価することに取り組む。特に、テキスト・データの各点に付く誤差を正確に評価し、Zipf則などの模型とデータの一致度合いを定量的に議論する。また、テキストの乱数性について、正規数性以外の評価指標を導入することも考える。