Software Analysis by Algorithm x Machine Learning
Project/Area Number |
22K11975
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 60050:Software-related
|
Research Institution | Shimane University |
Principal Investigator |
神谷 年洋 島根大学, 学術研究院理工学系, 教授 (70415660)
|
Project Period (FY) |
2022-04-01 – 2026-03-31
|
Project Status |
Granted (Fiscal Year 2022)
|
Budget Amount *help |
¥3,250,000 (Direct Cost: ¥2,500,000、Indirect Cost: ¥750,000)
Fiscal Year 2025: ¥130,000 (Direct Cost: ¥100,000、Indirect Cost: ¥30,000)
Fiscal Year 2024: ¥650,000 (Direct Cost: ¥500,000、Indirect Cost: ¥150,000)
Fiscal Year 2023: ¥650,000 (Direct Cost: ¥500,000、Indirect Cost: ¥150,000)
Fiscal Year 2022: ¥1,820,000 (Direct Cost: ¥1,400,000、Indirect Cost: ¥420,000)
|
Keywords | ソフトウェア解析 / 機械学習 / 情報検索 / 保守 / プログラム解析 |
Outline of Research at the Start |
コンピュータのソフトウェアはいわゆる自然言語とは異なる表現構造や意味論を持っている。既存の研究には、機械学習の分野で発達してきた自然言語処理、時系列データ、画像処理、あるいはそれらを組み合わせたマルチモーダルな技術をほぼそのままソフトウェアに適用しようとするアプローチが多い。本提案では、従来のソフトウェア解析技術をルールとして用いて可能な選択肢を生成し、その中から機械学習の予測により選択を行うという、既存のアプローチとは異なる機械学習を導入したソフトウェア解析技術を提案する。
|
Outline of Annual Research Achievements |
本研究課題では、次の2件の研究発表を行った。 1件目は、辻 優太郎,神谷 年洋, "SCDVモデルを利用する技術用語に対応した自然言語文書検索の提案", ソフトエア工学の基礎29 日本ソフトウェア科学会 FOSE2022, pp. 223-224, ライブ論文 (2022-11-11)、である。この発表では、機械学習モデルの一つであるSCDVを用いて自然言語テキストの分散表現化を行う際に、異なる分野のコーパスを用いて学習した2つのモデルを利用することで、文書検索の精度が上がることを、実験的に確認した。特に一方のコーパスはIT技術に関する文書を選んだものであり、ソフトウェア開発において必要な文書の精度を向上させる効果が見込めるものである。 2件目は、研究期間内にアクセプトされ5月の国際会議にて発表を行った、Wenqing Zhu, Norihiro Yoshida, Toshihiro Kamiya, Eunjong Choi, Hiroaki Takada: "MSCCD: Grammar Pluggable Clone Detection Based on ANTLR Parser Generation", Proceedings of the 30th IEEE/ACM International Conference on Program Comprehension (ICPC 2022), pp. 460-470. May 2022、である。この発表ではANTLRのパーザーを利用することで、コードクローン検出ツールが多くのプログラミング言語に適用可能となることを示した。この研究は、機械学習を応用した手法を開発したというものではなく、その手前の、機械学習モデルの訓練データを生成する方法として利用できるという観点からの進捗である。
|
Current Status of Research Progress |
Current Status of Research Progress
4: Progress in research has been delayed.
Reason
研究の進捗について予想よりも遅れが出ている理由を3つ挙げる。 1つ目として、授業負荷。授業負荷は相変わらず重く、他の教員と比較して担当する授業の量が著しく多い状況にある。この状況は研究に費やせる時間を大幅に削いでおり、教育の質を保ちながら、研究を並行して進めることに困難を感じている。授業を全く行わない教員の分を分担しているという状況も変化がなく、同じ専門分野での新たな人員の補充が行われなかったため、状況が改善していない。 2つ目として、教育や研究以外の用務の増加。大学全体の用務としてセキュリティ対策などの非教育、非研究関連の業務に時間を割かざるを得ない状況も続いている。これらのタスクは避けられない重要な責任であるものの、結果として研究活動への時間配分が更に制約されていて、計画的な研究進行が困難になっている。 3つ目として、新技術の出現。機械学習の分野では、破壊的な新技術であるChatGPTが出現した。これまでの研究の一環として構築してきたモデルが時代遅れとなり、大幅な方針転換を余儀なくされた。新たな視点と手法で再スタートを切る必要が生じ、この過程でこれまでの進捗が一部無効化されるという状況に直面している。
|
Strategy for Future Research Activity |
ChatGPTを始めとする大規模言語モデルの技術の進展に注目し、それらを利用した研究へと移行する計画を立てている。ソフトウェアは大規模な文書であり、密な参照関係を持つという性質上、現行の大規模言語モデルをそのまま適用するのは困難である。これを踏まえ、従来の技術と組み合わせることで、その利点を最大限に活用する方針を採る予定である。 ただし、新たな技術の導入は必ずしも簡単ではなく、技術の急速な進展により、その評価がまだ確立していない状況がある(例えば、単一のトイプロブレムの解決からその技術が万能であるとの誤解が広まっている)ために、自ら検証を進めていく必要がある。技術に対する十分なドキュメンテーションが未だに用意されていないという問題もあるため、手探りで技術の必要な技術の習得や評価を行っていく。 なお、学内の用務については、新年度になり採用人事が進んでいる一方で、ChatGPTへの対応方針やデジタルトランスフォーメーション(DX)に関する業務が増加していることもあり、今後の時間配分の見通しは現時点では不明であることも明記するものである。
|
Report
(1 results)
Research Products
(1 results)