前言
你是否有一个想法,自己设计一个网站,然后去爬取别人家页面的数据来做一个自己的网站。哈哈哈,如果自己写着玩可能没啥事,但如果用这个网站来获利,你可能就要被寄律师函了,毕竟这有点‘刑’。这篇文章呢,就带大家爬取豆瓣TOP250电影的信息。豆瓣电影 Top 250 (douban.com)[1]
准备工作
通过指令初始化文件夹,会获得项目说明书。
爬虫必备工具:;通过在终端输入,即可将文件装到项目里。 是 核心功能的一个快速灵活而又简洁的实现,主要是为了用在服务器端需要对 进行操作的地方。大家可以简单的理解为用来解析 非常方便的工具。
开始(细分七步)
用https模块(node直接提供给我们的)获取网站地址,通过get方法读取网站地址上的数据。
这样会读取到整个页面的html结构。
通过 ,保证读取完了才会去做操作。
引入
获取中的数据
这里需要注意的是我们可以去页面上看我们需要拿到哪个类名里面的内容,通过$符号可以拿到内容。
创建一个空数组,把数据以对象的形式存放在数组中
我们可以通过来检查是否打印出来了我们需要的结果。
将数据写入文件,引用官方提供的模块
创建文件夹,向其中写入数据
到这之后,我们可以看到在当前文件夹下自动创建了文件,里面已经有了我们想要的数据。
完整代码
结语
到这里你会发现的爬虫写起来不是很难的,作为一名前端新手我们应该知道它是非常强大的,它能读得懂可以用来做后端开发。本文的实现是爬取一些简单的数据,是一个入门,希望对未来学习有帮助
领取专属 10元无门槛券
私享最新 技术干货