Loading [MathJax]/jax/output/CommonHTML/config.js
部署DeepSeek模型,进群交流最in玩法!
立即加群
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >DeepSeek实战:3分钟学会提取网页纯文本!(含提示词)

DeepSeek实战:3分钟学会提取网页纯文本!(含提示词)

原创
作者头像
凯哥Java
发布于 2025-02-13 05:42:17
发布于 2025-02-13 05:42:17
1.2K0
举报
文章被收录于专栏:人工智能学习人工智能学习

DeepSeek实战:3分钟学会提取网页纯文本!(含提示词)

| 原创作者/编辑:凯哥Java | 分类:人工智能学习系列教程

大家好,我是凯哥Java。今天给大家介绍如何使用DeepSeek提取网页纯文本内容。

image.png
image.png

DeepSeek实战指南

痛点分析:

在日常工作中,我们经常需要从网页上复制文字内容,但很多网站会设置权限限制,例如:

提示需要登录才能复制内容,如下图:

image.png
image.png

复制需要登录的示例

提示需要申请编辑权限。如下图:

image.png
image.png

需要申请编辑权限的示例

直接禁用右键复制功能。

这些限制让我们无法快速获取所需信息,尤其是在需要整理资料或进行数据分析时,效率大大降低。

PS:本文是Deepseek实战系列课程。

本系列教程其他文章,还在文章末尾添加。欢迎系统学习!

解决方案

针对上述问题,我们可以通过浏览器的开发者工具(DevTools)来绕过限制,直接获取网页的HTML内容,然后借助AI工具(如DeepSeek)过滤掉HTML标签,提取纯文本内容。

解决操作步骤

以下是详细的操作步骤:

步骤1:打开开发者工具

如果使用的是谷歌浏览器,点击右上角的三个小点(菜单按钮),选择“更多工具” → “开发者工具”。

image.png
image.png

打开开发者工具步骤

或者直接使用快捷键:F12

步骤2:定位目标内容

1.在开发者工具中,点击左上角的“元素选择器”图标(小箭头图标)。

2.用鼠标点击网页上需要复制的文字内容,开发者工具会自动定位到对应的HTML元素。

具体操作: 如下图①;

选择需要复制页面的任意文字。如下图②;

根据文字元素往上找DIV。如下图③;

image.png
image.png

定位目标内容步骤

步骤3:找到目标DIV

1.在开发者工具的“元素”面板中,找到包含目标文字的DIV元素。

2.右键点击该DIV,选择“Edit as HTML”。

具体操作步骤:

如果能找到把整个文字选中的div就是我们的目标DIV了。如下图④所示。然后选中这个div,鼠标右键,Editer as html。这个时候就可以编辑html了

image.png
image.png

找打目标div步骤

image.png
image.png

Edit as HTML

步骤4:复制HTML内容

将编辑模式下的HTML内容全选并复制。

image.png
image.png

复制HTML内容操作

步骤5:使用DeepSeek过滤HTML标签

将复制的内容发送给DeepSeek,并输入指令:“把我发你的字符串过滤掉HTML标签”。

image.png
image.png

发送指令

DeepSeek会返回过滤后的纯文本内容。

image.png
image.png
  • DeepSeek处理后效果
注意点

F12被禁用:如果网站禁用了F12快捷键,可以尝试使用 Ctrl+Shift+I 打开开发者工具。

内容过长:由于DeepSeek的Token限制,如果复制的HTML内容过长,可以分段截取后再发送。

复杂网页:对于结构复杂的网页,可能需要多次尝试才能找到包含全部目标内容的DIV。

福利:

另外给大家准备了完整的deepseek资料:安装包、视频教程、学习资料、实用指令

image.png
image.png

学习资料

image.png
image.png

使用技巧

如果有需要的朋友,你们都懂得哈~。如果需要文中截图相关文章,你们也懂得怎么获取啊~

如果你们还有其他想要的实战教程,记得留言。凯哥写教程

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
一行代码搞定禁用 web 开发者工具
在如今的互联网时代,网页源码的保护显得尤为重要,特别是前端代码,几乎就是明文展示,很容易造成源码泄露,黑客和恶意用户往往会利用浏览器的开发者工具来窃取网站的敏感信息。为了有效防止用户打开浏览器的 Web 开发者工具面板,今天推荐一个不错的 npm 库,可以帮助开发者更好地保护自己的网站源码,本文将介绍该库的功能和使用方法。
曾高飞
2025/05/22
1580
WebMonitor 实时监控网页变化,并发送通知程序
WebMonitor 是一款 python 写的开源的网页监控程序,能监控网页变化和 RSS 更新,并支持多种通知方式。
暮城
2022/03/07
14.7K1
WebMonitor 实时监控网页变化,并发送通知程序
办公利器:DeepSeek+Word教程,让你的工作更高效!
DeepSeek + Word ,让你的工作更高效!在 Word 界面里,选中文字点击按钮,就能让 DeepSeek 为你快速检索信息、精准翻译文本、智能生成内容等等。这样就不需要在多个软件之间频繁切换,告别低效的信息处理方式,让工作效率大幅提升! 
Datawhale
2025/02/08
13.1K15
办公利器:DeepSeek+Word教程,让你的工作更高效!
不会还有人在传统网页定位修改,看我用一行JS代码让你的网页变为可编辑
考研结束的那段时间,我在闲鱼上看到了一个让人哭笑不得的商品——修改考研成绩。当然,这种修改只是自己骗自己罢了。不过,这种行为背后的想法倒也挺有意思:通过这种方式让家长觉得成绩离国家线还差一点,从而支持继续二战。学习永远是前进的动力,这种“小把戏”虽然不靠谱,但也体现了对学习的执着。
LucianaiB
2025/04/19
1250
不会还有人在传统网页定位修改,看我用一行JS代码让你的网页变为可编辑
小白也可以快速入门的Python爬虫攻略,信息任我抓
最近经常有人问我,明明看着教程写个爬虫很简单,但是自己上手的时候就麻爪了。。。那么今天就给刚开始学习爬虫的同学,分享一下怎么一步一步写爬虫,直至抓到数据的过程。
猫咪编程
2018/08/28
1.3K0
Chrome DevTools开发者工具
Chrome DevTools是内嵌在Chrome浏览器里的一组用于网页制作和调试的工具。使用DevTools,可以在平时中的开发调试中极大的提高效率。
Cloud-Cloudys
2020/07/07
1.2K0
《手把手教你》系列技巧篇(十七)-java+ selenium自动化测试-元素定位大法By css上卷
CSS定位方式和xpath定位方式基本相同,只是CSS定位表达式有其自己的格式。CSS定位方式拥有比xpath定位速度快,且比CSS稳定的特性。下面详细介绍CSS定位方式的使用方法。xpath定位是“屠龙刀”,那CSS定位就是"倚天剑了",相对CSS来说,具有语法简单,定位速度快等优点。
北京-宏哥
2021/09/13
1.5K0
如何在十分钟内创建一个Chrome 插件
曾经想过制作自己的Chrome扩展,却因为觉得过程太复杂而打消了念头吗? 好消息,事情并没有你想象的那么复杂!在接下来的几分钟里,我们不仅将为你详解Chrome扩展的基础知识,还将手把手教你如何用五个简单的步骤创建自己的扩展。
前端小智@大迁世界
2023/09/20
9970
如何在十分钟内创建一个Chrome 插件
从编程小白到全栈开发:操控浏览器
一个程序猿和普通电脑用户,当他们浏览到一个效果炫酷的网页的时候,他们的反应是不太相同的:
一斤代码
2018/08/21
7000
从编程小白到全栈开发:操控浏览器
《手把手教你》系列技巧篇(十四)-java+ selenium自动化测试-元素定位大法之By xpath上卷(详细教程)
按宏哥计划,本文继续介绍WebDriver关于元素定位大法,这篇介绍定位倒数二个方法:By xpath。xpath 的定位方法, 非常强大。 使用这种方法几乎可以定位到页面上的任意元素。
北京-宏哥
2021/08/10
1.3K0
Deepseek开发极简浏览器插件:微信读书检索结果提取
<div class="wr_index_page_mini_bookInfo_content_title"><span data-v-dd57013d="">大模型应用开发 动手做AI Agent</span><div class="wr_index_page_mini_bookInfo_content_info_extra"><div class="wr_index_page_mini_bookInfo_content_info_extra_icon"></div><div class="wr_index_page_mini_bookInfo_content_info_extra_count">137</div></div></div>
AIGC部落
2024/12/19
3170
Deepseek开发极简浏览器插件:微信读书检索结果提取
如何把设计稿还原成真实网页
所谓的前端是指什么呢?前端(front-end)是相对后端(back-end)而言的
PM吃瓜
2019/08/13
1.3K0
【图文详解】python爬虫实战——5分钟做个图片自动下载器
我想要(下)的,我现在就要 python爬虫实战——图片自动下载器 之前介绍了那么多基本知识【Python爬虫】入门知识(没看的赶紧去看)大家也估计手痒了。想要实际做个小东西来看看,毕竟: talk is cheap show me the code! 这个小工程的代码都在github上,感兴趣的自己去下载: https://github.com/hk029/Pickup 制作爬虫的基本步骤 顺便通过这个小例子,可以掌握一些有关制作爬虫的基本的步骤。 一般来说,制作一个爬虫需要分以下几个步骤: 分析
小小科
2018/05/03
9200
【图文详解】python爬虫实战——5分钟做个图片自动下载器
一键下载电影
学编程是为啥?偷懒呗~有时候去豆瓣看到比较感兴趣的或者想看朋友文字推荐的电影,就得打开电影网站获取电影的下载链接,然后用迅雷下载观看,我觉得挺麻烦的。当然要是在线观看就是另外一回事了。我喜欢下载下来看,不会卡不会有广告,贼舒服~
佛系编程人
2019/08/14
1.3K0
一键下载电影
学会这7个爬虫软件,三分钟搞定数据采集
爬虫技术是数据采集的核心手段,涉及到http请求、html解析、正则处理等技术,算是比较复杂的编程开发,对于很多人来说是不低的门槛。
派大星的数据屋
2025/03/03
4900
学会这7个爬虫软件,三分钟搞定数据采集
《手把手教你》系列技巧篇(四十六)-java+ selenium自动化测试-web页面定位toast-下篇(详解教程)
终于经过宏哥的不懈努力,偶然发现了一个toast的web页面,所以直接就用这个页面来夯实一下,上一篇学过的知识-处理toast元素。
北京-宏哥
2021/12/04
3770
《手把手教你》系列技巧篇(四十六)-java+ selenium自动化测试-web页面定位toast-下篇(详解教程)
CSS基础
层叠样式表 (Cascading Style Sheets,缩写为 CSS),是一种 样式表 语言,用来描述 HTML 文档的呈现(美化内容)。
张哥编程
2024/12/07
730
CSS基础
爬虫入门到精通-网页的下载
本文章属于爬虫入门到精通系统教程第四讲 在爬虫入门到精通第二讲中,我们了解了HTTP协议 http://mp.weixin.qq.com/s?__biz=MzU2OTAxNTcwMw==&mid=1
爬虫
2018/04/08
7250
爬虫入门到精通-网页的下载
Mac 自带浏览器 Safari 如何开启 Web 网页开发者调试模式?
大家好,我是猫头虎,今天为大家带来一篇关于 Safari 浏览器如何开启开发者调试模式 的详细教程!Safari 是 macOS 的默认浏览器,虽然在开发者圈子中不如 Chrome 普及,但其内置的开发工具功能强大,尤其在调试 iOS 和 macOS 系统的网页表现时非常有用。跟着这篇教程,让我们快速掌握开启 Safari 开发者调试模式的方法吧!🎯
猫头虎
2025/01/08
4.2K0
Mac 自带浏览器 Safari 如何开启 Web 网页开发者调试模式?
推荐 | 解决文库无法复制的问题(续篇)
前段时间我在公众号发表了一篇推文:「什么?你无法复制百度文库的内容?」,之后我收到了不少小伙伴们的反馈,其中也有一些大神分享了他们的经验和方案,我在这里大概整合了一下,并以最通俗易懂的方式向大家分享这些解除文库复制限制的方案。
悠风
2019/08/28
1.8K0
推荐 | 解决文库无法复制的问题(续篇)
推荐阅读
相关推荐
一行代码搞定禁用 web 开发者工具
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档