首页
学习
活动
专区
圈层
工具
发布

Python爬虫爬取知乎小结

获取用户基本信息 知乎上每个用户都有一个唯一ID,例如我的ID是marcovaldong,那么我们就可以通过访问地址 https://www.zhihu.com/people/marcovaldong...获取某个答案的所有点赞者名单 知乎上有一个问题是如何写个爬虫程序扒下知乎某个回答所有点赞用户名单?,我参考了段小草的这个答案如何入门Python爬虫,然后有了下面的这个函数。...而每一个问题下的每一个答案也有一个唯一ID,例如该问题下的最高票答案2015 年有哪些书你读过以后觉得名不符实?...- 余悦的回答 - 知乎的地址链接为https://www.zhihu.com/question/38808048/answer/81388411 ,末尾的81388411就是该答案在该问题下的唯一ID...结合其他函数,我们就可以抓取到某个答案下所有点赞者的头像,某个大V所有followers的头像等。 抓取某个问题的所有答案 给出某个唯一ID,下面的函数帮助爬取到该问题下的所有答案。

1.3K100

Python | Python爬虫爬取知乎小结

网络爬虫是指通过一定的规则自动的从网上抓取一些信息的程序或脚本。...这个函数我用了很长时间来调试,因为不同人的主页的信息完整程度是不同的,如果你在使用过程中发现了错误,欢迎告诉我。 ? ? 获取某个答案的所有点赞者名单 ?...而每一个问题下的每一个答案也有一个唯一ID,例如该问题下的最高票答案2015 年有哪些书你读过以后觉得名不符实?...- 余悦的回答 - 知乎的地址链接为https://www.zhihu.com/question/38808048/answer/81388411 ,末尾的81388411就是该答案在该问题下的唯一ID...结合其他函数,我们就可以抓取到某个答案下所有点赞者的头像,某个大V所有followers的头像等。 抓取某个问题的所有答案 给出某个唯一ID,下面的函数帮助爬取到该问题下的所有答案。

1.5K21
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    Python爬虫爬取知乎小结

    获取用户基本信息 知乎上每个用户都有一个唯一ID,例如我的ID是marcovaldong,那么我们就可以通过访问地址 https://www.zhihu.com/people/marcovaldong...获取某个答案的所有点赞者名单 知乎上有一个问题是如何写个爬虫程序扒下知乎某个回答所有点赞用户名单?,我参考了段小草的这个答案如何入门Python爬虫,然后有了下面的这个函数。...而每一个问题下的每一个答案也有一个唯一ID,例如该问题下的最高票答案2015 年有哪些书你读过以后觉得名不符实?...- 余悦的回答 - 知乎的地址链接为https://www.zhihu.com/question/38808048/answer/81388411 ,末尾的81388411就是该答案在该问题下的唯一ID...结合其他函数,我们就可以抓取到某个答案下所有点赞者的头像,某个大V所有followers的头像等。 抓取某个问题的所有答案 给出某个唯一ID,下面的函数帮助爬取到该问题下的所有答案。

    1.9K40

    在VS Code里逛知乎、发文章?知乎 on VS Code来啦!重新定义内容创作!

    以下文章来源于玩转VS Code ,作者牛岱 本文为 牛岱 的原创文章 在2020年2月10日首发于“玩转VS Code”知乎专栏 你是否已经厌倦了知乎 Web 端文本编辑器糟糕的使用体验和时而出现的奇怪...由于知乎服务端的限制,表格暂不支持,答案中的表格会被服务端过滤。 内容发布 链接扫描 ? 若你想在特定的问题下回答,或想修改自己的某个原有回答,就将问题/答案链接以 #! https://......的格式放置于答案的第一行,发布时,插件会自动扫描识别,发布至相应的问题下,或修改原有的答案。 比如,你想在 轻功是否真的存在,其在科学上可以解释吗? 该问题下回答问题, 只需将 #!...若插件没有在首行扫描到链接,则会询问创作者接下来的操作,你可以选择发布新文章,或从收藏夹中选取相应问题,发布至相应问题下: ?...插件会提示选择你收藏过的问题: ? 选择后,答案就会发布至相应的答案下(若已在该答案下发布过问题,请用顶部链接的方式来发布!)。

    2.7K10

    牛逼!我竟然能在 VS Code 里逛知乎、发文章

    由于知乎服务端的限制,表格暂不支持,答案中的表格会被服务端过滤。 内容发布 链接扫描 ? 若你想在特定的问题下回答,或想修改自己的某个原有回答,就将问题/答案链接以 #! https://......的格式放置于答案的第一行,发布时,插件会自动扫描识别,发布至相应的问题下,或修改原有的答案。 比如,你想在 轻功是否真的存在,其在科学上可以解释吗? 该问题下回答问题, 只需将 #!...若插件没有在首行扫描到链接,则会询问创作者接下来的操作,你可以选择发布新文章,或从收藏夹中选取相应问题,发布至相应问题下: ?...插件会提示选择你收藏过的问题: ? 选择后,答案就会发布至相应的答案下(若已在该答案下发布过问题,请用顶部链接的方式来发布!)。 ?...从粘贴板上传图片 调用 Zhihu: PasteImage 命令,自动将系统粘贴板中的图片上传至知乎图床,并生成相应链接。 快捷键为 ctrl+z p(,也可以通过打开命令行面板搜索命令。

    3K10

    CUDA新手要首先弄清楚的这些问题

    1 问:当下一个新的GPU架构发布时,我必须重写我的CUDA内核吗? 答复:不需要重写的,CUDA具有高层次的描述能力(抽象能力),同时CUDA编译器生成的PTX代码也不是固定于特定硬件的。...这样在运行的时候,驱动负责将PTX代码,转换成当前的特定的GPU上的二进制代码。而每当一个新的GPU发布时,驱动程序也随着更新,因此能不断将PTX转换成未来的所有新一代的GPU上的实际代码来运行。...4 问:我能同时进行CUDA计算和CUDA数据传输么? 答复:CUDA支持通过多流,在GPU计算和数据传输在时间上重叠/同时进行。...改工具随着最新版的CUDA Toolkit发布。没有直接的答案,这个需要反复试验。 实际上,每个kernel的最佳block形状/其中的线程数量,和具体kernel有关。...精确的说,和具体kernel在具体的某个卡上有关。无法直接确定的,得经过实验。 14 问:最大内核执行时间是多少? 答复:在Windows上,单独的GPU程序启动的最大运行时间约为2秒。

    2.2K10

    什么是GEO 和 SEO ?GEO 与 SEO 有什么区别?如何快速入门GEO?

    站外布局: 在 Wikipedia、Reddit、Quora、LinkedIn 发布高质量回答;与 KOL/媒体合作,扩大引用触点。...1.2 结果展示 SEO: 蓝色链接列表,用户点击进入获取信息。 GEO: LLM 整合多方答案,一次性输出,用户往往无需跳转。 策略启示: 1. 在开头给出核心结论,让模型快速抓取; 2....3.3 精准回答核心问题:成为“最佳答案” 问题收集: 从客服工单、用户调研、Reddit/Quora 等社区汇总高频问句; 答案构建: TL;DR 摘要 + 分段要点 + 列表/表格 + 真实案例;...3.6 扩散站外影响:搭建“引用网络” 目标平台: Wikipedia、YouTube、Reddit、Quora、LinkedIn; 精准发声: 发布高质量回答、专栏文章,留下短链接与可引用图表; 合作共建...面向大语言模型(如 ChatGPT、Google AI Mode)的优化方法,通过结构化深度内容争取被模型引用。 都是为了获取免费、有机流量,并提升品牌在各自检索环境中的可见度。

    5.6K11

    Quora 的陨落:AI 时代知识社区的困境

    她说:“有一段时间,也就是在 2010 年代中期,我们很多人真的专注在一个特定的使命上,那就是‘让 Quora 成为互联网上一个说你不能在这里胡作非为的地方。...这个“问题”的答案,获得了约 700 万点击量,链接到一个奇怪的、几乎无法使用的皇室观察网站 red-carpett.com。...以前你可以在谷歌上搜索时事问题,并在搜索结果的前几名找到 Quora 答案的链接,而现在,你更可能遇到像是一群人在 2024 年询问一贯的种族主义者特朗普 是否真的是种族主义者。...Quora 通过搜索引擎优化让自己排名靠前,但又在自己的页面上提供 ChatGPT 的答案,因此这些答案传播到了谷歌的搜索结果中。...Quora 的帮助中心声明:“到目前为止,我们不使用 Quora 上的答案、帖子或评论来训练用于在 Quora 上生成内容的 LLM,但这在未来可能会发生变化。”

    44810

    从 SEO 到 GEO:解锁 AI 时代的搜索优化新机遇

    用户不再仅通过“AI 会议记录软件”这类短尾关键词,而是以“列出目前最顶尖的 10 款 AI 会议记录工具,并比较它们的价格与功能差异”这样更自然、更长的查询方式与系统对话。...SEO 回顾 定义:优化网站以提高其在传统搜索引擎(Google、Bing)的自然排名,通过关键词、外链、技术审核等方式获取自然流量。 关注点: 关键词布局:3–5 字的短关键词。...价值: 被动流量 → 主动推荐:LLM 直接整合答案,无需用户点击多条链接。...应对之道: 争取“被引用”:在段首即给出结论,让 LLM 快速抓取; 优化首屏体验:当用户点击落地页,提供清晰的转化路径(表单、免费试用、演示邀请等); 加强品牌印记:在答案中天然融入品牌名、独家数据...发布可嵌入的研究报告/图表,方便他人引用; 在社群和公域论坛持续输出“深度讨论帖”。

    57510

    用ChatGPT训练羊驼:「白泽」开源,轻松构建专属模型,可在线试玩

    /arxiv.org/abs/2304.01196 白泽目前包括四种英语模型:白泽 -7B、13B 和 30B(通用对话模型),以及一个垂直领域的白泽 - 医疗模型,供研究 / 非商业用途使用,并计划在未来发布中文的白泽模型...白泽改进了开源大型语言模型 LLaMA,通过使用新生成的聊天语料库对 LLaMA 进行微调,该模型在单个 GPU 上运行,使其可供更广泛的研究人员使用。...通过这样的方法,研究人员分别收集了 5 万条左右 Quora、StackOverflow(编程问答)和 MedQA(医学问答)的高质量问答语料,并已经全部开源。...ChatGPT 使用从 Quora 数据集采样的种子生成的自我聊天示例。 相比之下,Vicuna 使用从 sharegpt.com 上抓取的对话,这样做的一个好处是收集到的数据质量很高。...总体而言,Baize-7B 提供了比 Alpaca-LoRA 更全面的答案,同时包含了 ChatGPT 答案中的大部分要点。另一方面,ChatGPT 提供了更长更详细的答案。

    83540

    Upvote Dynamics on the Quora Network(上)

    此外,人们可以通过执行搜索,跟随一个或多个相关问题链接,或通过点击在Facebook或Twitter上分享的内容来发现答案。...因此,通过一系列不断追随者的病毒式upvoting只是答案可以获得收视率的许多方式之一; Quora上的内容实际上可以通过几个不同的通道访问。...数据团队注意到,在Quora社区中也有这些问题的兴趣(例如,一个upvote是如何在Quora上的主题和关注者之间传播的),所以我们决定探索我们的第二个(和过期的)博客文章。...例如,如果我们研究2012年1月的答案,我们添加所有节点(代表Quora用户)和链接(代表关系),直到2012年1月1日午夜。图2显示了一个在答案队列的开始的小卡通网络。 ?...Stage 3:在计算所有投在答案队列上的upvoter的upvote距离后,我们选择各种截止时间t,只考虑在发布答案的时间t内投放的upvote,并找到每个答案的最大upvote距离。

    1.1K10

    分答、值乎之后百度入局,问答3.0大战再次升级

    3、高质量的问答: 为什么Quora能够快速崛起?与其“高门槛”有一定关系,最初,Quora并不是每个人都能回答问题,并且基于点赞排序等机制,高质量的答案将被更多人看到。...在问题越来越多、答案越来越多之时,用户追求更有效率的解决问题,高质量的问题和高质量的答案,越来越被用户亲睐。...又比如来自贴吧的育儿大神,可能不如Papi酱这么有名气,但依然能够给出高品质的专业答案,通过扶持大众化的知识英雄,百度问咖想要满足更多有高品质问答需求的用户。...能够在两端都有一定的新引力并且做到平衡的平台寥寥无几。 在这一点上,百度优势明显。 在问答经济1.0百度知道有深厚的沉淀,在过去十一年一共解决了超过4亿多个问题。...通过强大运营能力,知乎已在问答经济2.0时代站稳脚跟,并且得到腾讯和搜狗的投资,拥有社交、搜索相关资源,在高品质回答者和提问者的“两端资源”上,也有较多积累,实力不容小觑。

    944120

    你所写过的最好的Python脚本是什么?

    这是网友在 Quora 上提的同名问答帖,本文摘编了排名前两名的答案。得到最多赞的用户介绍了他写的在Facebook上面感谢好友的脚本。...Akshit Khurana的答案,3.4k个赞同 使用脚本在Facebook上感谢五百多个在我生日那天给我祝福的朋友: 那是我21岁的生日,在那天发生了三件使得那天值得纪念的事情。...为了让程序工作,你需要通过合适的权限从Graph API Explorer 获得一个令牌(token)。脚本假设在一个特定时间戳之后发布的所有信息都是生日祝福。...一个完全属于你自己的IMDb数据库!作为一个电影爱好者也不能要求得更多了;) 源代码在GitHub上:imdb。...编辑: 我正设法把这个脚本改成一个单页web应用,用户可以把多个文件夹拖曳放入网页,然后电影的详细信息将会显示在浏览器里的一个表格里。

    1.8K90

    AI时代,GEO的探索、痛点和方法|AI透镜研究系列

    然而,GEO也带来了新的挑战,其中最突出的便是“零点击”(Zero-Click)问题。在许多场景下,用户从AI处获得满意答案后便会直接离开,并不会点击引用来源链接。...策略应是集中资源打造高质量的官网内容,并辅以在YouTube、Reddit、Quora等高权重社区的投入。国内市场:“多点开花”。...通常,在一些非严谨的ToC场景下,用户问完AI、拿到答案后可能就直接离开了,并不会点击答案下面引用的来源链接。只有在像ToB这样的一些严谨场景下,用户才会点击链接进入你的网站。...谷歌搜索结果相对稳定,但AI搜索存在“非幂等性”问题:你用同一个问题问两次,得到的答案可能完全不同。此外,AI还有记忆效应,它会根据你的历史偏好调整结果。...第二,GEO带来的增量,是指通过点击AI回答中的链接产生的直接跳转吗?因为我发现有些AI工具在回答时并不提供引用来源,这种情况下虽然也起到了品牌曝光的效果,但很难归因。

    89621

    参考:16个免费在海外推广SaaS的方式

    ·    在所有的社交媒体上分享,包括个人的和专业的 ·    让你的朋友和家人分享这些内容 ·    提交到论坛的各个子版块上 ·     在 Facebook 群组上发布 ·    联系你在文章中提到的所有人...,请他们分享 ·    与那些链接到相似文章的人接触 ·    在Quora上回答问题 ·    推广到你的电子邮件列表中(如果你有的话) 请参考以下的推广清单: 3....你可能会问,SEO内容营销和内容营销不是一样的吗? 答案是否定的,尽管SEO内容属于内容营销。 ·    内容营销是当你想出独特的内容想法,指南,总结帖。...利用论坛的力量 Quora是很大的问答平台。用户可以发布不同主题的问题,并从各地的专家那里得到答案。这使得知乎成为市场营销产品的最佳平台之一。 假设你想推广你的解决方案。...做客座文章 在知名出版物上发布客座文章是吸引眼球的好方法。它也为你赢得了反向链接,这有助于提高博客的权威性。 但是,到一个高关注度的网站发表客座文章并不容易。

    4.7K31

    Selenium与PhantomJS:自动化测试与网页爬虫的完美结合

    本文将介绍Selenium与PhantomJS的基本原理、使用方法,并通过一个简单的示例演示它们如何完美结合,既能进行自动化测试,又能实现网页内容的快速抓取。1....Selenium与PhantomJS简介1.1 SeleniumSelenium是一个用于Web应用程序测试的工具,它支持各种浏览器和操作系统,并提供了一系列API,可以方便地模拟用户在浏览器中的操作行为...,如点击链接、填写表单等。...通过Selenium,开发人员可以编写自动化测试脚本,验证Web应用程序的功能是否符合预期。...示例:自动化测试与网页爬虫的结合3.1 需求描述假设我们需要对某个网站进行自动化测试,并且希望在测试过程中获取网页中的特定信息,比如新闻标题。

    1K10

    一文打尽人工智能和机器学习网络资源,反正我已经收藏了!

    ,其中很多都是免费的,还有一些付费的也很不错,但是在这篇文章中我只提供免费内容的链接。...记得去查看每个话题下的FAQ部分(例如机器学习下常见问题解答),你可以看到Quora社区里提供的一些常见问题列表。...https://www.quora.com/topic/Recurrent-Neural-Networks-RNNs Reddit Reddit上的人工智能社区并没有Quora上那么活跃...qst 科研会议 随着人工智能的普及,人工智能相关的科研会议数量也在不断增加。我只提了几个主要的会议,没列所有的。(当然会议并不是免费的!)...资料很多,大多都是国外的网站,所以大家需要访问外国网站哟~~~ 原文链接: https://unsupervisedmethods.com/my-curated-list-of-ai-and-machine-learning-resources-from-around-the-web

    85231

    百度发布“百度派”跟知乎抢生意?但故事可能要大得多

    12月6日,百度知道继年中推出共享知识平台问咖之后,又发布了一款新产品:百度派,域名为p.baidu.com。...与问咖相似的是,它们都抓住了知识经济这一重要机遇,是百度发展内容生态的产物,然而,却也有着很大不同。 ? 体验了下,注册用户会被要求输入实名,之后就能浏览问题和答案,但要提问,则需要通过认证。...其最关键的价值在于加强了“人”这个元素,鼓励人与人之间建立关系,并通过此进行信息过滤和筛选,同时确保高质量。 或许知乎并不愿意承认其“copy”了Quora,但事实却是如此。...百度派则有意在弱化“问答”这个概念,强调自己是高质量话题讨论社区,其实BBS、贴吧甚至微博都有话题讨论,百度派想要做的是将话题讨论的高质量内容通过社会化独立出来,就像Quora当初从问答中切出一块蛋糕一样...问答一直是主流的内容形态,问答可以激活内容生产,很多内容出现正是为了回答某个问题,今天自媒体的文章标题本身就是问题的比例很可观。

    66750

    海外版“知乎”Quora 遭黑客入侵,近一亿用户信息泄露

    万豪酒店数据泄露的事情还没平息,又有一位难兄难弟来分散焦点。12月4日早上,国外知名问答社区 Quora 在其博客上发布安全公告称,某个系统遭遇第三方入侵,近一亿用户重要信息可能已经泄露。 ?...Quora透露,上周五,他们发现某些用户数据遭到第三方攻击,该第三方未经授权访问了Quora的某个系统。在发现问题后立即采取了控制措施,防止事故再发生。...而匿名撰写问题和答案的用户信息由于不被存储,因此并不受影响。...相较于酒店的数据泄露,其实Quora所暴露的这些信息危害性更严重,除了用户的姓名、邮箱、密码等重要信息之外,用户在Quora上的活动,包括提问、回答、点赞等等行为,均可以分析出用户的兴趣、喜好,综合其它甚至还能推测出更多的信息...目前,Quora已经陆续通知信息可能受到影响的用户,同时重置所有受影响用户的账户密码,再次登陆则需要重新设定密码。虽然密码是加密的,但Quora建议用户不要在多个服务中使用相同的密码。

    68430
    领券