研究課題/領域番号 |
23K21706
|
補助金の研究課題番号 |
21H03514 (2021-2023)
|
研究種目 |
基盤研究(B)
|
配分区分 | 基金 (2024) 補助金 (2021-2023) |
応募区分 | 一般 |
審査区分 |
小区分61040:ソフトコンピューティング関連
|
研究機関 | 東京理科大学 |
研究代表者 |
池口 徹 東京理科大学, 工学部情報工学科, 教授 (30222863)
|
研究分担者 |
加藤 秀行 大分大学, 理工学部, 講師 (00733510)
島田 裕 埼玉大学, 理工学研究科, 准教授 (50734414)
松本 朋子 東京理科大学, 教養教育研究院神楽坂キャンパス教養部, 准教授 (50783601)
松浦 隆文 日本工業大学, 先進工学部, 准教授 (70579771)
保坂 亮介 芝浦工業大学, システム理工学部, 准教授 (80569210)
木村 貴幸 日本工業大学, 基幹工学部, 准教授 (80579607)
|
研究期間 (年度) |
2021-04-01 – 2025-03-31
|
研究課題ステータス |
交付 (2024年度)
|
配分額 *注記 |
17,160千円 (直接経費: 13,200千円、間接経費: 3,960千円)
2024年度: 4,290千円 (直接経費: 3,300千円、間接経費: 990千円)
2023年度: 3,770千円 (直接経費: 2,900千円、間接経費: 870千円)
2022年度: 3,770千円 (直接経費: 2,900千円、間接経費: 870千円)
2021年度: 5,330千円 (直接経費: 4,100千円、間接経費: 1,230千円)
|
キーワード | 多言語解析 / 複雑ネットワーク / メタ文法 / 数理言語学 / 最適化 / 言語ネットワーク / Colexification / 係り受け / 自然言語モデル / LLM / 言語 / ネットワーク解析 / 感情 / ネットワーク / Transformer / 文脈ベクトル / 最適性 / 数理最適化 / 認知心理学 / 共起ネットワーク / 文法構造 / コミュニケーション最適化 / 中間言語 / 機械翻訳 |
研究開始時の研究の概要 |
世界中の国々・地域の個人から組織に至る様々なスケールで大量の情報が発信されている.多様な言語で書かれたこれらのデータに対して,言語横断的にデータ解析する技術を開発できれば,言語に依らない新たなデータ解析の枠組みを構築することができる.本研究課題では,様々な言語の文法機能に現れる数理的な共通性・普遍性からメタ文法規則を導出することで,新たな言語学-数理言語学-の礎を創出する.これにより,データを記述する個々の言語の特殊性に依らないメタ文法規則に基づくデータ解析技術の基盤を構築することが眼目である.さらに,導出したメタ文法規則に基づいた定量的な言語分類を実現し,言語が分岐する要因を究明する.
|
研究実績の概要 |
・多言語で構成されるcolexificationネットワークを解析することで,多くの感情の基盤となっている基礎感情を見出すことができ,同研究成果をScientific Reportsに出版した.また,戦前日本のカタカナ表記の変化を時系列解析することで、ナショナリズムの変化を定量的に捉える視座を提供することができた.さらに,英語の小説数作品を対象として,単語の共起ネットワークの骨格構造が著者の作風や単語間の係受け関係の有無と密接に関係するという観点からの調査を,特に単語の共起ネットワークの骨格に含まれる辺のうち係受け関係にある単語対の割合という観点から調査した.これにより骨格構造がどの程度係受け関係にある単語対を含むのかを明らかにした. ・人間が言語を学習する際には音声さえあれば言葉の区切りが判別できることが知られている. そこで,自然言語モデルのトレーニングに音声的な情報を付け加えたデータを使用した場合の影響を調査した.また,LLMのモデルの一つであるM2M100モデルにおける文脈ベクトルを生成する際に算出される各登録トークンの出力確率のデータを用いて,インド-ヨーロッパ語族に属する言語間の類似性を客観的に解析し,言語間の類似性を表すネットワークを生成することにより,言語学者のTyshchenkoの研究結果と比較した. ・巡回セールスマン問題に対して,シミュレーテッドアニーリングの確率的機構をフェロモン蒸発に導入した蟻コロニー最適化手法を提案し,その評価を行った.また,自転車再配置問題や巡回被覆問題など,制約条件が厳しい最適化問題に対し,タブー探索法を基盤としたアルゴリズムの開発し,その性能評価を行った.これらの経路最適化アルゴリズムの評価実験で得た知見を言語における最適化問題を対象とした評価に応用するための検討を行った.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
自然言語モデルからの解析,最適化からの解析についてはやや遅れていると考えられるため,全体としてはやや遅れていると評価したが,言語ネットワーク解析については順調に進んでおり,2023年度は,査読つき英文論文誌にもその成果を発表することができている.
|
今後の研究の推進方策 |
・全体としては最終年度となる.そこで,国際シンポジウム NOLTA2024において,当該研究課題に関連する内容で構成されるスペシャルセッションを企画し,議論を行う. ・2023年度までは英語の小説作品十数作品を対象として単語の共起ネットワークの骨格構造と係り受け構造の関係を調査した.今後は,対象とする言語数・作品数を増やし,より詳しく骨格構造と係り受けの関係を調査する予定である.ネットワークの骨格を抽出する際に用いるフィルタリング手法に含まれるパラメータの値と係受け関係にある単語対が骨格に含まれる割合を調査することで,得られた結果の頑健性も調査する.これらの成果を2024年度の国際会議NOLTAで発表予定である. ・2023年度は,BERTに加えてAttensionのみを用いて高速に翻訳するシステムとしてComformerやGPTなどについて調べたが,2024年度は大規模言語モデルの中間言語について検討する.また,2023年度に構築した言語類似度の客観的解析手法を他のLLMモデルにも適用し,言語の類似度解析を拡張する.さらに,各LLMの文脈ベクトルを解析することで,メタ言語的性質を捉えていないかどうかを調査する. ・2023年度までに得られた知見を踏まえ,文章要約最適化問題などの言語分野における最適化問題に対する提案手法の評価をを進める予定である.具体的な内容の一つとして,言語を対象とする最適化問題に対し,2023年度において開発したタブー探索法を基盤としたアルゴリズムを適応する予定である.
|