首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

豆瓣小组-文本数据爬虫

数据说明 按页爬取小组所有讨论的基本信息 文件名:discusstion_list.csv 说明:获取豆瓣小组的讨论列表,每条讨论点击进入得到正文,在这里分开采集。...2022/1/19 5:46 page 爬取时所在页数 1 rank 爬取时所在排名 2 timestamp 爬取时间的时间戳 2022/5/22 18:27 每条讨论的第一条(1楼) 文件名:discussion_content.csv...每条讨论的所有回复内容 文件名:discussion_reply.csv 说明:获取每条讨论帖子下面的评论内容和评论之间的回复关系。...user 发表评论的用户 Σαπφώκορίτσι user_url 发表评论用户的url https://www.douban.com/people/Gra1989/ comment 评论内容 好滴...� time 评论发表时间 2021/10/16 10:57 reply_to 评论回复对象的评论id 4355637025 timestamp 爬取时间的时间戳 2022/5/22 22:27 --

2.8K30

ICLR 2020满分论文慘遭两个1分拒绝!AI顶会评审机制再受质疑

↓↓猛戳下方小程序互动评论赢取年度AI好书↓↓ 5位审稿人给出8-8-8-1-1的两极评分 首先,我们来看一下这篇论文的简要内容,以及5位审稿人的评审意见。 ?...科学,特别是机器学习的研究是建立在同行评审过程的信任基础上的。当我们看到一篇被ICLR/ICML/NeurIPS接受的论文时,我们通常相信审稿人对该论文的评价是正确的。...正确(包括论文没有忘记引用相关工作) 对研究界来说意义重大 当我们开始接受“糟糕”的论文时,就破坏了这些会议的可信度。...我想知道:作者是否与任何模型比较过?我怀疑这些模型在某种程度上已经能够捕获主题,并且可能排除了对该论文中提出的方法的需要(但如果证明这是错误的我会很高兴)。...也有人对作者在评论区对领域主席的回应感到可疑,coolontheintenet说: 作者在评论区对领域主席的反应极为可疑。

1.5K30
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    用户、话题、评论一网打尽,分享一个最强微博爬虫

    技术路线 代码共计 1000 余行,不关心技术的同学可以跳过此部分 爬虫部分主要是 通过 Chrome 分析微博页面上的接口,获取接口参数,使用 requests 库模拟请求,需要带上 cookies...,我这个爬虫的大头其实是解析部分,我主要用了 lxml 库,需要解析的东西非常多,差不多 csv 中的每一个字段都需要单独的代码块来解析。...,但是为了减少类之间的耦合,以及方便打包,我没有复用,这样单独一个类拿出来也能跑,减少了依赖。...内层循环还调用了一个函数 get_one_comment_struct():其作用是根据 xpath 得到的每一条 comment 元素解析得到我们想要的数据,其中又递归调用了几个自定义解析函数,比如解析得到的时间是诸如...“xxx分钟前"、"刚刚",我们需要进一步做字符串处理得到具体时间戳。

    3.9K20

    【机器学习圈子里的裙带关系】学术“朋友圈”罪与罚

    我最近注意到领域里存在很多裙带关系,我觉得需要指出一下。 今年NIPS的深度强化学习研讨会(Deep RL Symposium),12个演讲中有7个都来自伯克利的两个研究组。...metacurse的评论显然将问题过分简化,并且描述了极端情况。同时,考虑到Reddit社区论坛的特性,这里更多是在闲聊。但是,不可否认,他确实戳到了一个痛点。...除MNIST外,每个数据集的最高排名都是WGAN或WGAN-GP,与下一个排名的差异在5到10个标准差之间。对于MNIST,WGAN和WGAN-GP也在最高排名的NS GAN的误差范围内。...我猜这是因为这总比说,“我们发现了系统性差异的证据,但这些差异取决于可用的计算资源”(WGAN收敛的速度明显要慢)要好。...结语 裙带关系任何一个研究领域都有,依靠论文发表数量和引用的时候这种情况尤甚。“吸引人”和“真实可靠”之间难免存在权衡。而科学传播就更是一门科学,欢迎留下评论,说说你的看法。

    74470

    拿 NLP 来分析我自己的 Facebook 数据,会发生什么?

    我给信息添加时间戳,然后将其添加到采用 year.month.day.txt 格式的文件中,这是我标记所有文本文件的格式,以便我可以记录词汇随时间的变化。...现在让我们加载我们的数据并对其进行预处理。 我将在集合数据上演示代码,但它也适用于其他输入文件列表: ? 这可能需要一小段时间,但是当我们完成后,我们将能够开始查看有关我们文本的一些基本内容!...我想知道我的词汇用法随着时间的推移而变化。我们怎样才能产生呢?好吧,幸运的是我们给所有文件留了时间戳! 首先,让我们创建我们的绘图函数: ? 现在让我们编写一些函数来描绘我们的单词使用情况: ?...我们得到: ? ? 我觉得有趣的是,在 2013 年中期,我使用了很多单词。我不太确定我要做什么,但是当你把它删除到独特的单词时,那天我使用的 20,000 个单词,并不是很多很独特.........希望你从 Facebook 数据中学到一两招,也许是你自己的一些东西!我知道当我开始分析我的时候,我确实做到了。如果你想要分享很酷的视觉效果或事物,请给我发表评论!

    87320

    腾讯、网易、新浪新闻网站爬虫编写记录及评论格式分析

    一篇新闻有以下几个需要关注的地方: 新闻标题 新闻正文 新闻时间 由于要知道新闻的来源以及对应的评论,所以加上这两项:4. 新闻来源,5. 新闻评论地址。...评论来源,那么最终被我处理过的评论格式如下: { 'source' : '来自哪个新闻网站', 'user' : '用户名', 'time' : '10位长度的时间戳', //转换成时间戳是为了方便以后排序...”都没有的就显示IP地址,我猜的; v是支持数量; u不知道是什么粗略看一眼值全部都是’u’; d是当前评论的新闻id; t就是发表评论的时间啦; b就是评论的内容; a就是表示这个楼是不是最后一层楼的...新浪新闻有一个新闻ID和评论通道,这两个东西都比较麻烦,但又很关键,我这里先说获取的方法,下面就知道用途了。...最后把得到的评论的格式规范化。

    2.3K60

    你所不知道的缓存的使用场景

    基本就是数据库里面啥样,我缓存也啥样,数据库里面有商品信息,缓存里面也放商品信息,唯一不同的是,数据库里面是全量的商品信息,缓存里面是最热的商品信息。   ...场景2:列表排序分页场景的缓存   有时候我们需要获得一些列表数据,并对这些数据进行排序和分页。   例如我们想获取点赞最多的评论,或者最新的评论,然后列出来,一页一页的翻下去。   ...在缓存里面,就没必要每行一个key了,而是可以使用Redis的列表方式进行存储,当然列表的长短是有限制的,肯定放不下数据库里面这么多,但是大家会发现其实对于所有的列表,用户往往没有耐心看个十页八页的,例如百度上搜个东西...可以后台有一个线程,异步的初始化和刷新缓存,在缓存里面保存一个时间戳,当有更新的时候,刷新时间戳,异步任务发现时间戳改变了,就刷新缓存。   ...例如一个商品的所有的帖子和帖子的用户,以及一个用户发表过的所有的帖子就是属于两个维度。   这需要写入一个维度的时候,同时异步通知,更新缓存中的另一个维度。

    1.1K20

    MongoDB在vivo评论中台的实践

    涉及到的核心业务概念有: 【主题 topic】评论的主题,商城的商品、应用商店的 APP、社区的帖子 【评论 comment】用户针对于主题发表的内容 【回复 reply】用户针对于某条评论发表的内容,...由于评论业务的特殊性,它需要如下能力: 【字段扩展】业务方不同评论模型存储的字段有一定差异,需要支持动态的自动扩展。...config:配置服务器,用于分存储分片集合的元数据和配置信息,必须为 复制集(关于复制集概念戳我) 方式部署。mongos通过config配置服务器合的元数据信息。...但只是这样设计存在几个问题: 单个集群,不能满足部分业务数据物理隔离的需要。 集群调优(如split迁移时间)很难业务特性差异化设置。 水平扩容带来的单个业务方数据过于分散问题。...因此一般业务在使用MongoDB时,副本集方式就能支撑TB级别的存储和查询,并非一定需要使用集群化方式。 以上内容基于MongoDB 4.0.9版本特性,和最新版本的MongoDB细节上略有差异。

    1.4K20

    MongoDB 在评论中台的实践

    具体如下图所示: 涉及到的核心业务概念有: 【主题 topic】评论的主题,商城的商品、应用商店的 APP、社区的帖子 【评论 comment】用户针对于主题发表的内容 【回复 reply】用户针对于某条评论发表的内容...由于评论业务的特殊性,它需要如下能力: 【字段扩展】业务方不同评论模型存储的字段有一定差异,需要支持动态的自动扩展。...config:配置服务器,用于分存储分片集合的元数据和配置信息,必须为 复制集(关于复制集概念戳我) 方式部署。mongos通过config配置服务器合的元数据信息。...但只是这样设计存在几个问题: 单个集群,不能满足部分业务数据物理隔离的需要。 集群调优(如split迁移时间)很难业务特性差异化设置。 水平扩容带来的单个业务方数据过于分散问题。...因此一般业务在使用MongoDB时,副本集方式就能支撑TB级别的存储和查询,并非一定需要使用集群化方式。 以上内容基于MongoDB 4.0.9版本特性,和最新版本的MongoDB细节上略有差异。

    1.9K30

    【数据分析】用户画像,这么构!

    当行为集中到互联网,乃至电商,用户行为就会聚焦很多,如上图所示:浏览凡客首页、浏览休闲鞋单品页、搜索帆布鞋、发表关于鞋品质的微博、赞“双十一大促给力”的微博消息。等等均可看作互联网用户行为。...什么时间:时间包括两个重要信息,时间戳+时间长度。...时间戳,为了标识用户行为的时间点,如,1395121950(精度到秒),1395121950.083612(精度到微秒),通常采用精度到秒的时间戳即可。因为微秒的时间戳精度并不可靠。...这里的关注点是不同的网址,存在权重差异,权重模型的构建,需要根据各自的业务需求构建。 所以,网址本身表征了用户的标签偏好权重。网址对应的内容体现了标签信息。...四、总结 本文并未涉及具体算法,更多的是阐述了一种分析思想,在计划构建用户画像时,能够给您提供一个系统性、框架性的思维指导。 核心在于对用户接触点的理解,接触点内容直接决定了标签信息。

    2.3K90

    干货:如何构建用户画像

    当行为集中到互联网,乃至电商,用户行为就会聚焦很多,如上图所示:浏览凡客首页、浏览休闲鞋单品页、搜索帆布鞋、发表关于鞋品质的微博、赞“双十一大促给力”的微博消息。等等均可看作互联网用户行为。...什么时间:时间包括两个重要信息,时间戳+时间长度。...时间戳,为了标识用户行为的时间点,如,1395121950(精度到秒),1395121950.083612(精度到微秒),通常采用精度到秒的时间戳即可。因为微秒的时间戳精度并不可靠。...这里的关注点是不同的网址,存在权重差异,权重模型的构建,需要根据各自的业务需求构建。 所以,网址本身表征了用户的标签偏好权重。网址对应的内容体现了标签信息。...四、总结 本文并未涉及具体算法,更多的是阐述了一种分析思想,在计划构建用户画像时,能够给您提供一个系统性、框架性的思维指导。 核心在于对用户接触点的理解,接触点内容直接决定了标签信息。

    1.8K40

    你的batch size是2次方吗?奇葩选手:我用2的8.5次方

    假设我们在矩阵 A 和 B 之间有以下矩阵乘法: 计算两个矩阵 A 和 B 相乘的一种方法是计算矩阵 A 的行向量和矩阵 B 的列向量之间的点积(dot product)。...可能由于类似的原因,当我们将批次大小增加28(156)时,我们可以观察到训练时间更短了。...为了研究 GPU 满负荷时的训练时间差异,作者将batch size增加到 512,以使 GPU 显示出接近 100% 的计算利用率。...同样,正如我们之前看到的,作为 2 的幂(或 8 的倍数)的批大小确实会产生很小但几乎不明显的差异。 多GPU训练 前两个基准测试评估了在单个GPU上的训练性能,转到多GPU上结果是否会有不同?...此外,虽然实验是在同一台机器上运行了所有基准测试,但是以连续的顺序运行测试,运行之间没有很长的等待时间。也就是说GPU的温度在运行时可能有所不同,并且可能会对计时产生轻微影响。

    51520

    干货 ▏如何构建用户画像

    当行为集中到互联网,乃至电商,用户行为就会聚焦很多,如上图所示:浏览凡客首页、浏览休闲鞋单品页、搜索帆布鞋、发表关于鞋品质的微博、赞“双十一大促给力”的微博消息。等等均可看作互联网用户行为。...什么时间:时间包括两个重要信息,时间戳+时间长度。...时间戳,为了标识用户行为的时间点,如,1395121950(精度到秒),1395121950.083612(精度到微秒),通常采用精度到秒的时间戳即可。因为微秒的时间戳精度并不可靠。...这里的关注点是不同的网址,存在权重差异,权重模型的构建,需要根据各自的业务需求构建。 所以,网址本身表征了用户的标签偏好权重。网址对应的内容体现了标签信息。...四、总结 本文并未涉及具体算法,更多的是阐述了一种分析思想,在计划构建用户画像时,能够给您提供一个系统性、框架性的思维指导。 核心在于对用户接触点的理解,接触点内容直接决定了标签信息。

    1K50

    Feed 流系统实战

    Feed 流系统实战 「CSDN」里有一个页面叫「关注页」,关注页的逻辑十分常见就是将用户关注的创作者发表的文章聚合在一起,按时间倒序排列即可。...特别是当粉丝数特别多的头部作者发布内容时不需要进行特殊处理,等到读者进入关注页时再计算就行了。...传统的 limit + offset 分页器会有一些问题: 在 T1 时刻读取了第一页,T2时刻有人新发表了 article 11 ,如果这时来拉取第二页,会导致 article 6 在第一页和第二页都被返回了...笔者更倾向于使用时间戳来作为游标: 使用时间戳不可避免的会出现两条 Feed 时间戳相同的问题, 这会让我们的分页器不知所措。...结语 如果这篇文章对您有所帮助,或者有所启发的话,求一键三连:点赞、评论、收藏➕关注,您的支持是我坚持写作最大的动力。

    15510

    Kerbroes协议之AS-REQ & AS-REP

    S4U是微软为了实现委派而扩展的模块,分为 S4U2Self 和 S4U2Proxy 。这两个协议在委派攻击的时候会需要特别的学习。...其中,TGT的到期时间为8小时,如果超过了8小时,还需要重新申请TGT,不能直接进入下一步获取Ticket;AS在它的数据库中查找用户的口令,然后AS回复一个TGT和一个称为会话密钥的一次性加密密 钥(...第二步这个时候Kerberos与客户端已经建立起来了,客户端需要提供TGT与第一步中使用自己NTLM Hash解密出来的Session Key加密的客户端信息跟时间戳;如果假设这个数据被中间人窃取到,也无法在段时间内破解...同时还会生成一个Ticket,也就是最后的票据了。 ? ? 第三步里,客户端向服务器请求,需要提供Ticket,Server Session Key加密的客户端信息与时间戳。...然后AS服务器那边有用户hash,使用用户hash进行解密,获得时间戳,如果能解密,且时间戳在一定的范围内,则证明认证通过。

    2.3K10

    如何构建用户画像

    当行为集中到互联网,乃至电商,用户行为就会聚焦很多,如上图所示:浏览凡客首页、浏览休闲鞋单品页、搜索帆布鞋、发表关于鞋品质的微博、赞“双十一大促给力”的微博消息。等等均可看作互联网用户行为。...什么时间:时间包括两个重要信息,时间戳+时间长度。时间戳,为了标识用户行为的时间点,如,1395121950,1395121950.083612(精度到微秒),通常采用精度到秒的时间戳即可。...因为微秒的时间戳精度并不可靠。浏览器时间精度,准确度最多也只能到毫秒。时间长度,为了标识用户在某一页面的停留时间。 什么地点:用户接触点,Touch Point。对于每个用户接触点。...这里的关注点是不同的网址,存在权重差异,权重模型的构建,需要根据各自的业务需求构建。 所以,网址本身表征了用户的标签偏好权重。网址对应的内容体现了标签信息。...四、总结 本文并未涉及具体算法,更多的是阐述了一种分析思想,在计划构建用户画像时,能够给您提供一个系统性、框架性的思维指导。 核心在于对用户接触点的理解,接触点内容直接决定了标签信息。

    2.3K80

    鹅厂创业记:交互设计师如何从0到1?

    一开始我并不明白所谓举步维艰的处境,但当我遭遇腾讯内部创业,从0到1打造一款产品时,方明白举步维艰的意思是问题层出不穷,而我必须解决问题的速度比出现问题的速度更快。...在APP这个新项目中,时间短任务重,设计师接到的任务是在两个月内,把基于H5的兴趣部落,落地到客户端进行全新体验的设计并开发实现。在整个项目管理的流程中,需求和设计成为了重头戏。...好设计需要创新 「每个设计过程都会在看来毫无章法、模糊的实验阶段和突然变得极其清晰的阶段之间,在与核心设想纠结的阶段和长时间将注意力集中在细节上的阶段之间往复循环。」...案例:在部落话题详情页中承载用户回复其他用户的评论,展示被回复者的内容。 ? 方案1与方案2的解决思路是,在用户的评论内容中,引导用户点击打开被回复者的内容,用浮层承载。...整理设计关键点: 评论流不宜太过杂乱,内容要清晰,用户浏览起来要顺畅。 用户与用户之间回复的逻辑关系要清晰。 尽量不打断用户的主场景(阅读评论流)。 ?

    1.3K70

    【干货】用户画像数据建模方法

    当行为集中到互联网,乃至电商,用户行为就会聚焦很多,如上图所示:浏览凡客首页、浏览休闲鞋单品页、搜索帆布鞋、发表关于鞋品质的微博、赞“双十一大促给力”的微博消息。等等均可看作互联网用户行为。...什么时间:时间包括两个重要信息,时间戳+时间长度。...时间戳,为了标识用户行为的时间点,如,1395121950(精度到秒),1395121950.083612(精度到微秒),通常采用精度到秒的时间戳即可。因为微秒的时间戳精度并不可靠。...这里的关注点是不同的网址,存在权重差异,权重模型的构建,需要根据各自的业务需求构建。 所以,网址本身表征了用户的标签偏好权重。网址对应的内容体现了标签信息。...四、总结: 本文并未涉及具体算法,更多的是阐述了一种分析思想,在计划构建用户画像时,能够给您提供一个系统性、框架性的思维指导。 核心在于对用户接触点的理解,接触点内容直接决定了标签信息。

    1.7K60

    用户画像数据建模方法

    当行为集中到互联网,乃至电商,用户行为就会聚焦很多,如上图所示:浏览凡客首页、浏览休闲鞋单品页、搜索帆布鞋、发表关于鞋品质的微博、赞“双十一大促给力”的微博消息。等等均可看作互联网用户行为。...什么时间:时间包括两个重要信息,时间戳+时间长度。...时间戳,为了标识用户行为的时间点,如,1395121950(精度到秒),1395121950.083612(精度到微秒),通常采用精度到秒的时间戳即可。因为微秒的时间戳精度并不可靠。...这里的关注点是不同的网址,存在权重差异,权重模型的构建,需要根据各自的业务需求构建。 所以,网址本身表征了用户的标签偏好权重。网址对应的内容体现了标签信息。...四、总结: 本文并未涉及具体算法,更多的是阐述了一种分析思想,在计划构建用户画像时,能够给您提供一个系统性、框架性的思维指导。 核心在于对用户接触点的理解,接触点内容直接决定了标签信息。

    1.8K60

    如何构建用户画像

    当行为集中到互联网,乃至电商,用户行为就会聚焦很多,如上图所示:浏览凡客首页、浏览休闲鞋单品页、搜索帆布鞋、发表关于鞋品质的微博、赞“双十一大促给力”的微博消息。等等均可看作互联网用户行为。...什么时间:时间包括两个重要信息,时间戳+时间长度。...时间戳,为了标识用户行为的时间点,如,1395121950(精度到秒),1395121950.083612(精度到微秒),通常采用精度到秒的时间戳即可。因为微秒的时间戳精度并不可靠。...这里的关注点是不同的网址,存在权重差异,权重模型的构建,需要根据各自的业务需求构建。 所以,网址本身表征了用户的标签偏好权重。网址对应的内容体现了标签信息。...四、总结: 本文并未涉及具体算法,更多的是阐述了一种分析思想,在计划构建用户画像时,能够给您提供一个系统性、框架性的思维指导。 核心在于对用户接触点的理解,接触点内容直接决定了标签信息。

    2.6K61
    领券