12月14日,网络安全企业Sophos和 ReversingLabs联发布史上最规模性恶意软件研究数据集——SoReL-20M,致力于搭建合理的防御力,提高检测服务和回应的工作能力。
SoReL-20M是一个带有2000万Windows PE文档数据库、标识和特点的数据集,在其中包括1000万除去恶意软件作用的恶意软件样版,总体目标是为设计方案检验恶意软件的人工神经网络方式给予充足的数据集。与此同时开源系统的也有在这种数据信息上预练习的根据PyTorch 和 LightGBM的设备学习模型做为标准。
自然语言理解和图像识别行业都是有许多公布的数据集,例如MNIST、ImageNet、CIFAR-10、IMDB Reviews、Sentiment140和WordNet。与自然语言理解和图像识别行业不一样的是,规范化的、标识的数据集对网络安全而言是十分具备挑战的,由于有很多本人鉴别的信息内容、比较敏感的互联网基础设施建设数据信息、本人专利权数据信息等,何况要把恶意软件给予给不明的第三方。
2018年发布的EMBER(Endgame Malware BEnchmark for Research)是一个开放源码的恶意软件支持向量机,在其中仅有110万故意样版,其作用仅仅单一的标识数据集(恶意软件或者非恶意软件),换句话说会限定实验的范畴。
SoReL-20M的总体目标是根据2000万的PE 恶意软件样版来处理这一问题,在其中带有1000万除去恶意软件作用的恶意软件样版(没法实行),及其1000万非恶意软件中提炼的特性和数据库。
除此之外,该方式应用根据人工神经网络的标识实体模型来转化成特定恶意软件样版关键特点的人们可解释的语意叙述。
SoReL-20M 的发布与最近业内趋势是一致的。20年10月,微软公司发布了抵抗人工神经网络危害引流矩阵来协助安全性研究工作人员检验、回应和修补对于人工神经网络系统软件的抵抗进攻。
ReversingLabs研究工作人员称,安全领域威胁情报共享资源的观念并不新鮮,可是是十分核心的。人工智能技术和人工神经网络早已变成检验新的恶意软件和定项攻击器的重要,并且运用也更加普遍。
Github 网页页面:https://github.com/sophos-ai/SOREL-20M
有关SOREL-20M的毕业论文SOREL-20M:A Large Scale Benchmark Dataset for Malicious PE Detection 下载链接:https://arxiv.org/abs/2012.07634
大量参照:https://ai.sophos.com/2020/12/14/sophos-reversinglabs-sorel-20-million-sample-malware-dataset/
文中翻譯自:https://ai.sophos.com/2020/12/14/sophos-reversinglabs-sorel-20-million-sample-malware-dataset/倘若转截,请标明全文详细地址。