东西湖融媒从位于国家网安基地的武汉金银湖实验室获悉,金银湖安全大模型1.0版今年3月已上线,正在湖北电信、中国移动等关键信息基础设施行业测试。2.0版正在调试中,预计明年正式投放市场,有望成为国内首个聚焦代码安全领域的垂直大模型。
30分钟干完 100位工程师1天工作
代码是构建信息系统的“细胞”。目前国内外代码数量浩如烟海,质量良莠不齐,含有漏洞或病毒的代码通常会导致系统性风险,尤其在能源、金融等关键信息基础设施行业的代码风险,直接威胁国家安全。
“从全球海量代码中筛选出安全代码,并为我国关键行业软件系统作全面安检,从源头保障我国网络空间安全。”2023年,金银湖安全大模型项目启动,从架构设计、训练语料到应用验证全链路聚焦源代码安全,致力核心技术“自主可控”。
在数万行乃至数百万行代码中精准定位漏洞,如同大海捞针,漏洞往往隐藏于零星几行。
目前全球主流方法是人工筛查或运用规则工具。人工筛查依赖工程师经验,过程如同医生看病理切片,耗时耗力且容易漏掉不明显的漏洞。
运用规则工具筛查,需先为漏洞“画像”,工具根据“画像”去寻找,弊端是行动“僵化”,局限于“画像”,难以查出伪装或进化的漏洞。
金银湖安全大模型将业界积累数十年的经验归纳为数据和算法模型,从全球海量代码中筛查并形成30多万个“漏洞切片”。大模型通过学习“漏洞切片”和安全代码之间的差异,拥有了“火眼金睛”,从数百万行代码中捕捉漏洞仅需半天时间,从10万行代码中捕捉漏洞不超过30分钟,实现完全自动化筛查。
工作中的金银湖安全大模型团队。
一位经验丰富的代码安全检测工程师,一天可以检测约1000行代码。这意味着,金银湖安全大模型在30分钟内可干完100位工程师1天的工作。
“开源软件历史漏洞覆盖率100%,识别准确率超90%,包括曾造成全球超40%企业服务器受影响的log4j漏洞。待检的软件系统拿过来,比对一下就可知结果。”金银湖安全大模型项目技术负责人熊胜超告诉记者。
“业内评测数据显示,国内外目前效率最高的规则工具,检测综合准确率约为60%,金银湖安全大模型的检测综合准确率高达75%;此外,在针对国家信息安全漏洞库收录的近千个高危漏洞样本的专项测试中,检出率超过90%。”金银湖安全大模型项目技术负责人张恒告诉记者,据行业评估,检出率每提高1%,能避免数百到数千次潜在攻击。
大模型不仅是“漏洞捕手”,还拥有自主学习能力和智能修复能力,能举一反三地识别伪装或进化的漏洞,能换位思考黑客的进攻路线并提前演习预防,能在抓到漏洞后依托高质量威胁情报数据集与专家知识库进行智能修复。
“当前国内外代码安全产品,大多只能提供某一环节或某些领域安全保障,金银湖安全大模型是为软件供应链提供全生命周期安全保障。”熊胜超告诉记者。
大模型2.0版 明年走向市场
“这是高校基础研究种子在国家网安基地发芽结果。”
金银湖安全大模型主力研发团队来自华中科技大学,在“基于深度学习算法的检测”项目上,已开展十几年基础研究。
在国家网安基地的算力服务与应用场景、产业生态催化下,研发团队在2年内完成了从实验室到应用场的飞速跨越。
武汉金银湖实验室发展历程。
熊胜超告诉记者,国内关键信息基础设施的重要行业和领域,此前大多采用国外代码筛查技术,近年来受到相关国家出口管制,面临“卡脖子”难题,而金银湖安全大模型致力于打破这一局面。
当前,金银湖安全大模型1.0版已在中国电信湖北分公司等企业,以及国内电子信息领域头部企业试用,在实战场景中已捕获数百个原创性漏洞,并向国家信息安全漏洞库上报。
实验室工作人员查看服务器负载。
基于应用场景的反馈与建议,大模型正在快速向2.0版“进化”。2.0版预计明年正式投放市场,真正从“书架”走向“货柜”,将聚焦软件开发提效、代码深度审查、攻防实战演练三大信息行业关键场景,自动生成安全软件提升开发效率,智能扫描代码精准识别高危漏洞,模拟黑客攻击预判潜在风险,推动我国信息安全体系加快从“被动修漏洞”向“主动防风险”升级,显著强化数字基础设施防护能力,加速技术成果向产业应用转化。
“代码安全大模型是数字时代的战略基础设施,不仅是保障数字经济的底座,更是在国家战略安全层面构建技术主权与防御壁垒的必须之举。可以说,金银湖安全大模型是国内首个从架构设计、训练语料到应用验证全链路聚焦源代码安全的垂直大模型,在技术革新、产业升级、经济赋能、国家安全及国际竞争方面都具有重大意义。”华中科技大学网络空间安全学院执行院长邹德清说。