前往小程序,Get更优阅读体验!
立即前往
发布
社区首页 >专栏 >CNVD漏洞库数据采集详解

CNVD漏洞库数据采集详解

原创
作者头像
C4rpeDime
修改2024-10-30 09:48:49
修改2024-10-30 09:48:49
22200
代码可运行
举报
文章被收录于专栏:HackTipsHackTips
运行总次数:0
代码可运行

背景

在21世纪的信息安全领域,网络安全已经成为各个领域关注的焦点。随着全球网络攻击事件的增多,企业和个人面临的安全挑战也愈发严峻。掌握最新的漏洞信息是强有力的防御措施之一,而 CNVD(China National Vulnerability Database,即中国国家信息安全漏洞共享平台)作为中国的重要资源库,为研究人员和网络安全从业者提供了全面的漏洞数据支持。本指南将详细解析如何通过自动化脚本方案,稳妥、高效地获取 CNVD 提供的共享 XML 数据。

前期准备

账户注册与验证

在开启数据之旅之前,首要任务是注册并登录 CNVD 平台账户。使用以下步骤确保您获得全面访问权限:

  1. 访问官网:打开浏览器,输入 CNVD 官方网站。
  2. 账户创建:查找页面中的注册按钮,点击进入注册页面。注册过程可能需要填写详细的个人信息,包括用户名、电子邮箱、密码等。
  3. 邮箱验证:提交注册信息后,您会收到一封来自 CNVD 的邮件,包含账户激活链接。请及时查阅您的邮箱并激活账户以完成注册流程。

注册并登录后,您可以访问共享数据下载页面。获得数据访问权限不仅是为了获取技术资料,也是为了合法合规地遵循平台使用条款。

浏览器环境配置

为确保脚本的流畅运行,我们推荐使用现代化的浏览器,如 Google Chrome 或 Mozilla Firefox。这些浏览器对 JavaScript 的支持完善,通过配合开发者工具,能够更好地进行脚本调试与执行。

  1. 安装插件:确保浏览器支持 JavaScript 和相关功能扩展。必要时,您可以访问浏览器扩展商店下载开发者友好的插件,比如 JSON Viewer、XML Formatter 等工具。
  2. 启用开发者工具:在浏览器中按下 F12 键(或通过菜单访问工具)可以开启开发者工具。在进行脚本开发及调试过程中,该工具是不可或缺的。

需求分析

数据的重要性与挑战

在复杂的网络环境中,漏洞信息的及时性和完整性是保障网络安全的基石。准确掌握潜在威胁,制定有效防御措施,不仅可防止经济损失,也可保护企业声誉。由于 CNVD 提供的漏洞信息详尽而及时,是开展漏洞研究与安全分析的重要数据源。

然而,直接的爬虫抓取方式常常因受反爬机制限制而面临挑战。因此,我们转而关注 CNVD 提供的共享数据接口,以低频、不干扰的访问策略实现数据的批量获取。

自动化解决方案

为实现数据的自动化下载,我们探讨如下两种方案:

  1. 按钮自动点击:通过脚本模拟用户在页面上点击下载链接,通过设置浏览器的不同选项,实现自动翻页下载。这种方法需要处理页面DOM元素,难度较高。
  2. 链接请求循环:通过发送请求获取每个独立数据链接,这是基于URL结构规律实现的爬虫方案。这一方法实现路径简单明了,只需了解页面的链接结构,即可实现自动化。

经过对比后,我们选择了第二种方案。经过页面分析,发现 CNVD 的数据下载链接遵循 https://www.cnvd.org.cn/shareData/download/编号 的模式,这为自动化提供了技术可行性。

实施步骤

引入 FileSaver.js

由于浏览器环境的限制,JavaScript 默认无法直接保存文件。因此,我们引入 FileSaver.js 这一 JavaScript 库,允许在客户端环境保存文件。具体步骤如下:

  • 脚本与引入
代码语言:javascript
代码运行次数:0
复制
var saveAs = saveAs || (function(view) {
  "use strict";
  // IE <10 is explicitly unsupported
  if (typeof view === "undefined" || typeof navigator !== "undefined" && /MSIE [1-9]\./.test(navigator.userAgent)) {
      return;
  }
  var
        doc = view.document
        // only get URL when necessary in case Blob.js hasn't overridden it yet
      , get_URL = function() {
          return view.URL || view.webkitURL || view;
      }
      , save_link = doc.createElementNS("http://www.w3.org/1999/xhtml", "a")
      , can_use_save_link = "download" in save_link
      , click = function(node) {
          var event = new MouseEvent("click");
          node.dispatchEvent(event);
      }
      , is_safari = /constructor/i.test(view.HTMLElement) || view.safari
      , is_chrome_ios =/CriOS\/[\d]+/.test(navigator.userAgent)
      , throw_outside = function(ex) {
          (view.setImmediate || view.setTimeout)(function() {
              throw ex;
          }, 0);
      }
      , force_saveable_type = "application/octet-stream"
      // the Blob API is fundamentally broken as there is no "downloadfinished" event to subscribe to
      , arbitrary_revoke_timeout = 1000 * 40 // in ms
      , revoke = function(file) {
          var revoker = function() {
              if (typeof file === "string") { // file is an object URL
                  get_URL().revokeObjectURL(file);
              } else { // file is a File
                  file.remove();
              }
          };
          setTimeout(revoker, arbitrary_revoke_timeout);
      }
      , dispatch = function(filesaver, event_types, event) {
          event_types = [].concat(event_types);
          var i = event_types.length;
          while (i--) {
              var listener = filesaver["on" + event_types[i]];
              if (typeof listener === "function") {
                  try {
                      listener.call(filesaver, event || filesaver);
                  } catch (ex) {
                      throw_outside(ex);
                  }
              }
          }
      }
      , auto_bom = function(blob) {
          // prepend BOM for UTF-8 XML and text/* types (including HTML)
          // note: your browser will automatically convert UTF-16 U+FEFF to EF BB BF
          if (/^\s*(?:text\/\S*|application\/xml|\S*\/\S*\+xml)\s*;.*charset\s*=\s*utf-8/i.test(blob.type)) {
              return new Blob([String.fromCharCode(0xFEFF), blob], {type: blob.type});
          }
          return blob;
      }
      , FileSaver = function(blob, name, no_auto_bom) {
          if (!no_auto_bom) {
              blob = auto_bom(blob);
          }
          // First try a.download, then web filesystem, then object URLs
          var
                filesaver = this
              , type = blob.type
              , force = type === force_saveable_type
              , object_url
              , dispatch_all = function() {
                  dispatch(filesaver, "writestart progress write writeend".split(" "));
              }
              // on any filesys errors revert to saving with object URLs
              , fs_error = function() {
                  if ((is_chrome_ios || (force && is_safari)) && view.FileReader) {
                      // Safari doesn't allow downloading of blob urls
                      var reader = new FileReader();
                      reader.onloadend = function() {
                          var url = is_chrome_ios ? reader.result : reader.result.replace(/^data:[^;]*;/, 'data:attachment/file;');
                          var popup = view.open(url, '_blank');
                          if(!popup) view.location.href = url;
                          url=undefined; // release reference before dispatching
                          filesaver.readyState = filesaver.DONE;
                          dispatch_all();
                      };
                      reader.readAsDataURL(blob);
                      filesaver.readyState = filesaver.INIT;
                      return;
                  }
                  // don't create more object URLs than needed
                  if (!object_url) {
                      object_url = get_URL().createObjectURL(blob);
                  }
                  if (force) {
                      view.location.href = object_url;
                  } else {
                      var opened = view.open(object_url, "_blank");
                      if (!opened) {
                          // Apple does not allow window.open, see https://developer.apple.com/library/safari/documentation/Tools/Conceptual/SafariExtensionGuide/WorkingwithWindowsandTabs/WorkingwithWindowsandTabs.html
                          view.location.href = object_url;
                      }
                  }
                  filesaver.readyState = filesaver.DONE;
                  dispatch_all();
                  revoke(object_url);
              }
          ;
          filesaver.readyState = filesaver.INIT;

          if (can_use_save_link) {
              object_url = get_URL().createObjectURL(blob);
              setTimeout(function() {
                  save_link.href = object_url;
                  save_link.download = name;
                  click(save_link);
                  dispatch_all();
                  revoke(object_url);
                  filesaver.readyState = filesaver.DONE;
              });
              return;
          }

          fs_error();
      }
      , FS_proto = FileSaver.prototype
      , saveAs = function(blob, name, no_auto_bom) {
          return new FileSaver(blob, name || blob.name || "download", no_auto_bom);
      }
  ;
  // IE 10+ (native saveAs)
  if (typeof navigator !== "undefined" && navigator.msSaveOrOpenBlob) {
      return function(blob, name, no_auto_bom) {
          name = name || blob.name || "download";

          if (!no_auto_bom) {
              blob = auto_bom(blob);
          }
          return navigator.msSaveOrOpenBlob(blob, name);
      };
  }

  FS_proto.abort = function(){};
  FS_proto.readyState = FS_proto.INIT = 0;
  FS_proto.WRITING = 1;
  FS_proto.DONE = 2;

  FS_proto.error =
  FS_proto.onwritestart =
  FS_proto.onprogress =
  FS_proto.onwrite =
  FS_proto.onabort =
  FS_proto.onerror =
  FS_proto.onwriteend =
      null;

  return saveAs;  
}(
typeof self !== "undefined" && self
|| typeof window !== "undefined" && window
|| this.content
));
// `self` is undefined in Firefox for Android content script context
// while `this` is nsIContentFrameMessageManager
// with an attribute `content` that corresponds to the window

if (typeof module !== "undefined" && module.exports) {
module.exports.saveAs = saveAs;
} else if ((typeof define !== "undefined" && define !== null) && (define.amd !== null)) {
define("FileSaver.js", function() {
return saveAs;
});
}
var downloadTextFile = function(mobileCode,a) {
if(!mobileCode) {
mobileCode = '';
}

var file = new File([mobileCode], a+".txt", { type: "text/plain;charset=utf-8" });
  saveAs(file);
 

}
var a = 242;
var timer = setInterval(function(){
a = a+1;
if(a>733){clearInterval(timer)}
$.ajax({method:'GET',url:'/shareData/download/'+a,success:function(res){
downloadTextFile(res,a)}}
)}, 2000)

库初始化:在网页中,通过 <script> 标签加载库文件,确保在后续代码调用时已完成加载。

代码语言:html
复制
<script src="path/to/FileSaver.min.js"></script>

脚本开发与测试

设计并编写 JavaScript 脚本,自动化请求并下载 XML 数据:

代码语言:javascript
代码运行次数:0
复制
var downloadTextFile = function(content, fileName) {
    if(!content) content = '';  // 确保内容非空
    var file = new File([content], fileName + ".xml", { type: "application/xml;charset=utf-8" });
    saveAs(file);
}

随后,通过 jQuery 实现 AJAX 请求,以遍历并获取所有数据链接:

代码语言:javascript
代码运行次数:0
复制
var start = 242;
var end = 733;  // 应根据 CNVD 实时更新调整
var timer = setInterval(function() {
    if (start > end) {
        clearInterval(timer);
        console.log('下载完成');
        return;
    }
    $.ajax({
        method: 'GET',
        url: '/shareData/download/' + start,
        success: function(res) {
            console.log('下载成功: ' + start);
            downloadTextFile(res, 'CNVD-' + start);
            start++;
        },
        error: function(err) {
            console.log('下载失败: ' + start);
            start++;
        }
    });
}, 2000);

说明:调试过程中,观察是否存在请求频率超出网站限制的情况,可适时调整 setInterval 的时间参数。

数据处理与清洗

完成下载后,需对文件进行数据清洗。可能会有一些文件因为内容为空而不需要保留。使用 Python 脚本,自动删除这些体积较小的文件:

代码语言:python
代码运行次数:0
复制
import os

def clean_directory(path):
    for root, _, files in os.walk(path):
        for file in files:
            file_path = os.path.join(root, file)
            if os.path.getsize(file_path) < 2048:  # 小于2KB的文件
                os.remove(file_path)
                print(f"Removed: {file_path}")

if __name__ == '__main__':
    download_path = './CNVD'
    clean_directory(download_path)

总结与展望

完成上述步骤后,您将获得未经清洗与处理的漏洞 XML 文件。在数据的应用阶段,可以进一步结合数据分析手段、自然语言处理技术进行信息提取与漏洞特性挖掘。

在网络安全快速演变的背景下,持续的漏洞数据监测和分析将为机构提供坚实的安全基础。随着 CNVD 更新的持续和技术的革新,希望本指南能为网络安全从业者提供实用支持,并帮助大家在信息安全的道路上走得更远。

通过本次扩展,我们在详细讲解每个实施步骤的同时,还提供了重要的背景知识及操作细节,以帮助您充分利用 CNVD 数据进行安全研究。如果您有更具体的需求或问题,欢迎与我讨论与交流。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 背景
    • 前期准备
      • 账户注册与验证
      • 浏览器环境配置
    • 需求分析
      • 数据的重要性与挑战
      • 自动化解决方案
    • 实施步骤
      • 引入 FileSaver.js
      • 脚本开发与测试
      • 数据处理与清洗
    • 总结与展望
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档