抓取文章分类_dedecms 文章分类_dedecms文章分类 - 腾讯云开发者社区 - 腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

[开源] 分享导出博客园文章成本地 Markdown 文件存储的工具

此文主要分享了如何将自己博客园的文章自动导出到 Markdown 文档进行存储，以便在本地进行归档管理，程序中也对文章的分类、tag、代码块以及文章中的图片进行了保存处理，以便上传到自己的图。整理后的 Markdown 可以在本地整理成册或者发布到自己的个人博客上，比如我使用 Markdown 书写的个人博客。文章目录支持的功能基本原理几个知识点将 HTML 转换成 Markdown 注意 Mac 和 Windows 以及 Linux 下的换行的区别文章分类、tag 的获取文章中图片保存

05

WordPress实现QQ卡片链接

QQ发出去一个网址后，在展示的时候，他会快速抓取网站的内容（标题，缩略图，描述）进行展示，抓取有特殊标记的内容，快速展示出来。我们可以通过在head部分加标签的方式让这个过程更快，更准确的展示我们需要的内容。

您找到你想要的搜索结果了吗？

是的

没有找到

谷歌新论文：让机器人依靠视觉识别抓取特定物体

安妮编译自 arXiv 量子位出品 | 公众号 QbitAI 近日，谷歌团队在arXiv上发布了新论文《End-to-End Learning of Semantic Grasping》，这篇文章由

04

业余草(www.xttblog.com)告诉你如何让网站网址实现百度秒收录

一个网站要想关键词有排名，必须先收录！同样的一篇文章，收录快的网站，排名一般好于收录慢的网站（也有特别特殊情况）。因此，作为一个站长，觉得网站SEO优化的核心目标便是实现网站文章的秒收录。

06

简易数据分析 11 | Web Scraper 抓取表格数据

今天我们讲讲如何抓取网页表格里的数据。首先我们分析一下，网页里的经典表格是怎么构成的。

02

tag标签是什么？对seo有什么用？

作为SEOer的我们在优化网站的时候回遇到几种标签，而tag标签就是其中一种，tag标签和一般的HTML标签不太一样，tag标签是一种特殊的标签，那么tag标签在SEO中有什么用？对SEO有什么用？下面菜头网络推广小编给大家介绍一下tag是什么，还不了解tag标签的小伙伴赶紧来围观。

01

WPJAM「标题设置」：一键设置 WordPress 所有页面的页面标题

页面标题是整个站点最重要的地方，如果页面被搜索引擎索引了，在搜索结果中显示的就是页面的标题。WordPress 默认页面标题是一般是两种规则，首页是显示站点标题和站点副标题，而其他页面是当前的对象的标题和博客站点的标题，然后都是中间用「-」间隔开。

02

WPJAM「静态文件」：一键合并 WordPress 插件和主题的 JS 和 CSS 文件，加快页面加载速度

每个插件和主题可能有自己的 CSS 和 JavaScript 内联代码或者文件，如果 CSS 和 JavaScript 内联代码或者文件一多，就开始出现了两个比较难受的问题：

03

我来讲讲实践中的文本内容画像系统

从毕业到现在，恍惚间就是三年多的时间。最初那个懵懂的少年如今已经变成头发稀少，胡茬丰富的大叔。虽然不是一线互联网公司，但是所幸一直在最核心的技术团队做推荐系统相关的事情。

02

分享Emlog博客程序建站SEO优化技巧方法

之所以叫做简易优化指南，是因为emlog网站程序本身并不支持多么复杂的优化手段，比如说尽管5.0.0版实现了首页的网页标题和浏览器标题（也即title）分开设置，但栏目页和作者页还是老样子网页标题和浏览器标题只能一起弄。此外还有缺少二级分类支持啦、无法单独提取置顶和带图文章啦——修改数据库之类的主意就免了吧，可以的话咱尽量只动模板，实在不行稍微改动一下程序文件就够了。

01

WPJAM「评论增强插件」支持后台添加评论

WPJAM「评论增强插件」新增后台添加评论功能，这样管理员也给一些文章添加一些评论来丰富文章的内容了，操作也非常简单，在后台的文章列表，点击「添加评论」按钮：

02

推荐系统从0到1[一]:数据与画像

年终了，终于可以在需求的夹缝中喘息一会。回望2017年，最大的成就莫过于从0到1搭建起了一套支持多业务场景、高并发访问、高时效性的新闻推荐系统。这其中自是暗坑无数，趁着还未淡忘，将系统搭建过程中遇到的困难与解决方法记录于此。

05

WordPress 首页文章如何使用分类过滤？

这是我碰到最多的需求了，博客首页的文章如何使用分类进行过滤，有些用户只想某几个分类的文章，而有些用户则不想显示某几个分类的文章。

02

WPJAM「分类管理插件」新增多重筛选功能

前面我详细介绍了文章查询时如何使用分类，标签或其他分类模式，具体怎么应用呢？我就给 WPJAM「分类管理插件」增加了一个多重筛选的功能：

02

WordPress 果酱知识星球所有福利插件列表

WordPress 果酱知识星球所有插件已经30多款了，这些插件都是我们开发商业网站的基础，也是我们构建花生小店这个电商小程序 SaaS 系统的基础，绝非是世面上的那些胭脂俗粉，都是经过大流量测试和商业验证的插件，罗列一下：

01

在 WordPress 后台如何使用分类和标签进行过滤文章列表？

我们知道默认情况下，WordPress 后台文章列表，可以通过分类进行过滤，那么是否可以通过标签过滤呢？甚至自定义的分类呢？

03

Scrapy全站抓取-个人博客

想像一下，首先我们需要解析一个网站的首页，解析出其所有的资源链接（ajax方式或绑定dom事件实现跳转忽略），请求该页面所有的资源链接，再在资源链接下递归地查找子页的资源链接，最后在我们需要的资源详情页结构化数据并持久化在文件中。这里只是简单的介绍一下全站抓取的大致思路，事实上，其细节的实现，流程的控制是很复杂的。

03

WPJAM「内容模板插件」新增标识参数短代码

WPJAM「内容模板插件」最早的时候，短代码只支持 ID，但是有些同学反馈内容模板多了，ID 记不住，更可怕的时候，由于网站重建，重新导入一下 WP，所有的内容模板 ID 都变了，所有使用了内容模板的文章都得修改。

04

WPJAM「用户管理插件」新增记录用户最后登录时间功能

WPJAM「用户管理插件」新增记录用户最后登录时间功能，用户登录之后，在后台用户列表就会显示该用户的最后登录时间：

02

【技能】Python爬虫和情感分析简介

这篇短文的目的是分享我这几天里从头开始学习Python爬虫技术的经验，并展示对爬取的文本进行情感分析(文本分类)的一些挖掘结果。不同于其他专注爬虫技术的介绍，这里首先阐述爬取网络数据动机，接着以豆瓣影评为例介绍文本数据的爬取，最后使用文本分类的技术以一种机器学习的方式进行情感分析。由于内容覆盖面巨大，无法详细道尽，这篇文章旨在给那些对相关领域只有少量或者没有接触的人一个认知的窗口，希望激发读者自行探索的兴趣。以下的样本代码用Pyhton写成，主要使用了scrapy， sklearn两个库。所以，什么

04

一款Google抓图神器,它与Python批量抓取图片的原理一模一样

相信大家前段时间肯定看到一篇文章名为《只因写了一段爬虫，公司200多人被抓！》的公众号文章（文章的描述已经显而易见，大家都非常清楚了）

02

站点选项 WordPress 插件：管理和删除无用的站点选项

新插件：「站点选项」，它可以让你查看所有非 WordPress 系统自动生成的站点选项，如果你觉得某个选项没有用了，可以直接删除它。

03

WordPress 评论表的 comment_type 字段的默认值从空字符串改成 'comment'

WordPress 之前评论表的 comment_type 字段的默认值一直是空字符，为了更加的语义化，从 5.5 版本开始，WordPress 已经将强制设置为 "comment"，这项改动是为了以后更加的方便实现自定义 comment_type 注册。

04

WordPress 标签的固定链接可以使用 ID 吗？

如果标签没有设置别名，那么固定链接就会带有中文，然后被 urlencode 转义成下面的字符串：

02

论文精萃|9th| Real-Time Grasp Detection | YOLO系列01 | CV | 附全文下载

标志性：YOLO算法的作者，YOLO是到目前为止，速度和精度最均衡的目标检测网络

01

WordPress 全能分类管理插件：WPJAM Taxonomy

WPJAM「分类管理插件」是 WordPress 果酱出品的全能型分类管理插件，这个插件目前主要有七大功能：

02

手把手教你爬取互联网资源

文 | 杨真在资源匮乏，搞人工智能和大数据应用没有数据，做社交应用找不到用户，开发图片应用缺少图片，的情况下，如何冷启动？最好的办法就是做一个爬虫，批量从互联网搞“拿来主义” 从抓取对象进行分类，爬虫大致分为三类：静态网页爬虫、动态网页爬虫、移动应用程序爬虫。下面一一展开。静态网页爬虫这可以算是最古老的一类爬虫了，第一代搜索引擎走的就是这条技术路线。互联网的开放性决定了，所有我们能够浏览到的HTML网页的内容，都可以被爬虫抓取到。静态网页是由简单的 HTML 文本 + JS + CSS 构成的

07

WPJAM Avatar：在 WordPress 后台自定义头像

该插件已经升级为 WPJAM 用户管理插件，并且也集成了自定义头像功能，直接启用即可。

02

WPJAM「评论增强插件」：支持评论点赞和评论置顶

我们知道 WordPress 评论功能好是好，但总觉差点什么，所以我想了想，可能是大家习惯了公众号的留言系统吧，希望也能和公众号的留言一样，可以点赞，管理员还可以置顶评论，所以按照这个需求做了一下，并且能名字也叫做：「WPJAM 评论增强」插件。

04

WordPress 分类如何实现拖动排序？

WordPress 默认对分类的排序真的是太弱了，仅支持通过代码的方式使用 ID，使用数量（count），名称（name），别名（slug）等字段进行排序，都没有提供自定义分类的方法，更别提拖动排序。

03

WPJAM 配置器：无需一行代码就能配置文章类型，自定义字段，自定义分类，分类选项和全局选项

WordPress 受欢迎的原因是其开放性和强定制性，说到定制性，我们知道 WordPress 支持自定义文章类型，自定义分类模式，文章类型又支持无限字段，分类模式也支持字段，并且还可以定义全局选项等。

03

WPJAM #Hashtag#：自动将文章内容中 #话题标签# 转换成链接

比如文章内容中提到到了某个标签和分类，或者某个插件和产品的链接，都希望能够快速转成链接，方便用户点击过去。

03

说说Robots.txt限制收录与Google网站管理员工具

最近有朋友询问：用谷歌site你的站发现Google没收录你的tag页，我的怎么？有还大部分是？站长认为，很多新手估计都不明其中的道理，索性就写篇文章吧。

03

缺数据玩不转机器学习？这里有一份超实用爬虫攻略

键字全网搜索最新排名【机器学习算法】：排名第一【机器学习】：排名第一【Python】：排名第三【算法】：排名第四作者简介杨真创业公司CTO 曾任腾讯无线部门技术负责人在资源匮乏，搞人工智能和大数据应用没有数据，做社交应用找不到用户，开发图片应用缺少图片，的情况下，如何冷启动？最好的办法就是做一个爬虫，批量从互联网搞“拿来主义”。从抓取对象进行分类，爬虫大致分为三类：静态网页爬虫、动态网页爬虫、移动应用程序爬虫。下面一一展开。静态网页爬虫这可以算是最古老的一类爬虫了，第一代搜索引擎走

06

把玩爬虫框架Gecco

如果你现在接到一个任务，获取某某行业下的分类。作为一个非该领域专家，没有深厚的运营经验功底，要提供一套摆的上台面且让人信服的行业分类，恐怕不那么简单。找不到专家没有关系，我们可以爬虫。把那些专家的心血抽丝剥茧爬出来再统计即可。确定好思路，我和即将要说的爬虫框架Gecco打了一天的交道。 Gecco简介 Gecco是一款用java语言开发的轻量化的易用的网络爬虫。Gecco整合了jsoup、httpclient、fastjson、spring、htmlunit、redission等优秀框架，让您只需要配

04

分析了 7 万款 App，全是没想到

摘要：使用 Scrapy 爬取豌豆荚全网 70,000+ App，并进行探索性分析。

01

简易数据分析（七）：Web Scraper 抓取表格、分页器翻页数据

经典表格就这些知识点，没了。下面我们写个简单的表格 Web Scraper 爬虫。

04

火车头采集器在线发布模块制作教程视频_火车头采集器收费与免费的区别

在线发布模块，就是采集器通过网站后台，发布文章，也就是说，把你手动在网站后台发布文章的整个过程包含登录网站后台，选择栏目，到后面的发布文章，这些步骤写到采集器里面，就是在

01

WPJAM 「图片集插件」：设置图片分类和通过分类快速筛选图片

WordPress 后台对图片的管理有点弱，没有分类，有时候找张图片也非常麻烦，网上有非常多的图片管理插件，做的非常好，但是我用起来总是不合心意，哈哈，要不我要的功能没用，要嘛其他功能一大堆。

02

分析了 7 万款 App，全是没想到

摘要：使用 Scrapy 爬取豌豆荚全网 70,000+ App，并进行探索性分析。

04

SEO-外部链接类型以及标准

外部链接外链的作用：宣传你的网站相信大家都听过“内链为王，外链为皇”这句话，不管这句话对不对，从这句话上面，我们都能体会到外链的重要性。外链类型： 1.博客 2.论坛 3.分类信息(分类目录，友情链接平台) 4.百科类 5.社区平台 6.视频外链 7.网盘外链 8.问答类 9.B2B平台 10.资源下载类 11.新闻源博客---现在玩博客的也有很多，通过建立博客，可以实时的发布一些相关的信息，在信息里面带上外链，也是一种不错的方法。论坛---有很多SEOER喜欢逛论坛，在论坛发帖，带上链接，或者

05

WPJAM 「脚本加载优化」：一键加快 WordPress 后台

很多人都说 WordPress 后台很慢，有些同学反馈甚至都需要2-3秒才能打开，并且他们使用的服务器是阿里云 / 腾讯云这些，基本可以排除是服务器问题，那么为什么 WordPress 后台那么慢？

03

Java数据采集-4.分析常见的翻页（加载数据）方式

共两页，列表页地址为：http://blog.csdn.net/TMaskBoy/article/list/2

02

爬了知乎60W个网页，发现了一些很有趣的东西

我们先讲讲爬虫，这10w个网页我没有写代码去实现抓取，当时在上班，不想花太多时间去抓取这些内容（flag）。所以就采用Chrome浏览器的插件Web Scrape去实现抓取。

Karpathy点赞，这份报告教你如何用 LLaMa 3创建高质量网络数据集

众所周知，对于 Llama3、GPT-4 或 Mixtral 等高性能大语言模型来说，构建高质量的网络规模数据集是非常重要的。然而，即使是最先进的开源 LLM 的预训练数据集也不公开，人们对其创建过程知之甚少。

01

AI是万能的吗？当前AI仍面临的难题是什么？

【导读】谈到人工智能（特别是计算机视觉领域），大家关注的都是这一领域不断取得的进步，然而人工智能到底发展到什么程度了？AI 已经成为万能的了吗？Heuritech 的 CTO Charles Ollion 希望通过他的文章可以揭露一些当前的真实情况。接下来就让我们一起看看这位作者都谈了什么内容吧！

02

个人博客怎么做好优化

首先一点，我觉得博客更多的是一个分享交流工具，它生成的网站结构，网页代码与很多网站相比算是比较搜索引擎友好。

03

百度搜索资源平台（站长工具）抓取频次归零的解决过程

有朋友找老魏说自己网站的百度抓取频次归零了，自己对网站的操作没有变化，不知道百度这次为什么这么对待自己。魏艾斯博客也是第一次见到这种情形，琢磨了一下找到思路并开始操作，经过一段时间终于解决了问题。相信这个经验对很多使用百度搜索资源平台的站长会有帮助，不管你已经遇到这个问题还是将来可能会遇到，记录并分享出来就是一篇给大家带来帮助的文章，也是这篇文章的价值所在。

03

10个WordPress的query_posts语句使用技巧

Query_posts语句是WordPress最实用的语句之一。正是在query_posts的作用下，WordPress的Loop循环才能够调用并显示所有文章内容。 Query_posts的魅力在于，它可以根据你的要求，通过各种各样的方式灵活地检索并过滤日志或页面。你可以用query_posts进行简单的文章抓取，可以只抓取一篇，也可以抓取上百篇。而说到复杂点的用法，你甚至可以利用query_posts来查询某一分类目录下某个作者发表的、带有某个标签的特定数量文章等。下面介绍的是一些更实用的用法。

09

WPJAM MetaData：可视化管理 WordPress Meta 数据

进行 WordPress 开发的朋友，肯定知道 WordPress Meta API 的牛逼之处，就是因为有了它，WordPress 真的什么网站都能做。😎 我前面发布的 WordPress 配置器，其中一个很重要的功能就是让你更灵活方便的使用 Post Meta 和 Term Meta，只要用会和用好它，你就才真正掌握 WordPress 的精髓。所以很多插件都使用 Meta 来实现功能，但是插件用的得多，或者某些插件用得 Meta 字段特多，比如一篇文章，就用了几十个 Meta 字段，那么文章数只要上

04

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭