作者丨 Reddit 译者丨王强 策划丨万佳 多年来,Reddit 已经发展成互联网世界一片广阔而多样化的土地。Reddit 的核心是众多社区组成的网络。...从你时间线的内容到整个站点的无数讨论中反映的文化,社区犹如 Reddit 流动的血液,让它变成今天这个模样。Reddit 多年来的增长给一直以来为我们服务的数据处理和服务系统带来了极大压力。...Reddit 具备的庞大规模和多样性,一开始可能很容易让人头晕。如果 Reddit 是一个城市,则 r/popular 页面就会是市政厅,你可以在其中看到那些吸引最多讨论的内容。...今天,Reddit 上的内容在几分钟之内就会完全改变;而与某位用户相关的内容可能会根据他们最近访问的内容而改变。 Reddit 上的用户群体比以往任何时候都更加多样化。...具有各种各样的背景、信仰和处境的人们每天都会访问 Reddit。此外,我们用户的兴趣和态度会随着时间而改变,并期望他们的 Reddit 体验能反映出这种变化。
Reddit收购了短视频应用程序Dubsmash,蓄力进军拥挤的短视频市场。 据悉,Reddit想要借这次收购来整合自己的视频创作部门。...Reddit 2017年就推出了本地视频,而且在2020年使用量获得了2倍的增长。...虽然如此,但Reddit本身仍然以文本内容为主,视频、图片以及动图(GIF)更多来自其他平台,缺乏本地原创视频,所以收购Dubsmash可以帮助Reddit创建自己的视频平台。...Reddit CEO史蒂夫 · 霍夫曼说: 「 Dubsmash 提升了代表性不足的创作者,而 Reddit 则通过成千上万不同的主题和激情培养了一种社区和归属感。」...而Reddit在「乔治·弗洛伊德事件」之后,平台出现了大量的仇恨言论,这在敏感时刻的影响是巨大的。
使用 Python 抓取 Reddit 在本文中,我们将了解如何使用Python来抓取Reddit,这里我们将使用Python的PRAW(Python Reddit API Wrapper)模块来抓取数据...Praw 是 Python Reddit API 包装器的缩写,它允许通过 Python 脚本使用 Reddit API。...安装 要安装 PRAW,请在命令提示符下运行以下命令: pip install praw 创建 Reddit 应用程序 第 1 步:要从 Reddit 中提取数据,我们需要创建一个 Reddit 应用程序...这些值将用于使用 python 连接到 Reddit。 创建 PRAW 实例 为了连接到 Reddit,我们需要创建一个 praw 实例。...抓取 Reddit 子 Reddit 从 Reddit 子版块中提取数据的方法有多种。Reddit 子版块中的帖子按热门、新、热门、争议等排序。您可以使用您选择的任何排序方法。
新智元报道 来源:Reddit 编辑:小芹 PyTorch可以和TensorFlow一样快,有时甚至比TensorFlow更快了?这是怎么回事?最近Reddit的一个帖子引起热议。...近日,Reddit 上有一个热帖:为什么 PyTorch 和 TensorFlow 一样快 (有时甚至比 TensorFlow 更快)? ?...格式 (TensorFlow 的默认格式) 的性能更好:https://devblogs.nvidia.com/tensor-core-ai-performance- ones/ 这个问题引发了诸多 Reddit
,但是OpenAI仅仅是使用Reddit上的数据,所以不会有这个顾虑。...gohrt:在学习算法中设置“仅包含长评论”可能是Reddit上脏话问题最简单的解决办法。 anexprogrammer:虽然过于口语化,但Reddit上有很多的长讨论都是非常正式的。...qxf2:我用过Reddit上的数据,当时我制作了一个AI来帮助作家调查人们对问题的看法,就是用Reddit上的评论作为训练样本。...如果你想获得Reddit的数据集,以下链接可能会帮到你(同样出自Hacker News评论): Syllogism:Reddit语料库是一个非常好的数据库。...BigQuery使用Reddit的数据”指导: http://minimaxir.com/2015/10/reddit-bigquery/ chokma:这里有数据集的种子文件: magnet:?
为此,Reddit 和 OpenAI 今天宣布了一项合作伙伴关系,以多种方式惠及 Reddit 和 OpenAI 用户社区:OpenAI 将增强 Reddit 内容并引入 ChatGPT 和新产品中,帮助用户发现并参与...Reddit 社区。...为此,OpenAI 将访问 Reddit 的数据 API,该 API 提供了来自 Reddit 的实时、结构化和独特内容。...这将使 OpenAI 的 AI 工具更好地理解和展示 Reddit 内容,尤其是关于最新话题的内容。此合作伙伴关系还将使 Reddit 能够为 Reddit 用户和版主带来新的 AI 功能。...“我们很高兴与 Reddit 合作,通过独特及时和相关信息增强 ChatGPT,探索利用 AI 功能丰富 Reddit 用户体验的可能性。”
Reddit是美国最大的网上社区,它的每个帖子前面都有向上和向下的箭头,分别表示"赞成"和"反对"。用户点击进行投票,Reddit根据投票结果,计算出最新的"热点文章排行榜"。...Reddit的程序是开源的,使用Python语言编写。...结合以上几个变量,Reddit的最终得分计算公式如下: 这个公式可以分成两个部分来讨论: (一) 这个部分表示,赞成票与反对票的差额z越大,得分越高。...结论就是,Reddit的排名,基本上由发帖时间决定,超级受欢迎的文章会排在最前面,一般性受欢迎的文章、有争议的文章都不会很靠前。...这决定了Reddit是一个符合大众口味的社区,不是一个很激进、可以展示少数派想法的地方。 [参考资料] * How Reddit ranking algorithms work
网址:https://arxiv.org/abs/1910.03867 基于 GPT-2 的 Reddit 机器人(343⬆️️) 作者建立了一个由 OpenAI 的 GPT-2 驱动的 Reddit...via:https://heartbeat.fritz.ai/best-of-machine-learning-in-2019-reddit-edition-5fbb676a808
新智元报道 来源:Reddit 编辑:小芹 【新智元导读】PyTorch可以和TensorFlow一样快,有时甚至比TensorFlow更快了?这是怎么回事?...最近Reddit的一个帖子引起热议。 近日,Reddit 上有一个热帖:为什么 PyTorch 和 TensorFlow 一样快 (有时甚至比 TensorFlow 更快)? ?...格式 (TensorFlow 的默认格式) 的性能更好:https://devblogs.nvidia.com/tensor-core-ai-performance- ones/ 这个问题引发了诸多 Reddit
Krishnan Chandra 本文导航 ◈ 计数方法 08% ◈ 总结 88% 编译自 | https://redditblog.com/2017/05/24/view-counting-at-reddit.../ 作者 | Krishnan Chandra 译者 | geekpi 我们希望更好地将 Reddit 的规模传达给我们的用户。...然而,Reddit 有许多访问者在没有投票或评论的情况下阅读内容。我们希望建立一个能够捕捉到帖子阅读数量的系统。然后将该数量展示给内容创建者和版主,以便他们更好地了解特定帖子上的活动。...Reddit 的数据管道主要围绕Apache Kafka [6] 。当用户查看帖子时,事件被激发并发送到事件收集器服务器,该服务器批量处理事件并将其保存到 Kafka 中。
但巨大的地下市场也催生了表网中与暗网有关的社区,Reddit 网站中的 /r/DarkNetMarkets 社区就是一个例子。近日,Reddit 关闭了这个社区,当时其订阅用户数量高达 18 万。...在论坛关闭之前,Reddit 管理员发布了一条新的“直接交易”禁令,禁止用户在论坛或社区中交易某些特定形态的商品。...事实上,Reddit 早就开始探讨实施新的“直接交易”禁令,2 月份美国 Stoneman Douglas 高中的枪击案促使 Reddit 管理员开始批准并执行这项新禁令,主要是为了防止在平台上进行枪支和弹药交易...Reddit 的很多用户对此也期待已久: r / DarkNetMarkets 的用户担心 Reddit 将对他们重磅出击。...但是一旦 Reddit 管理员发现用户通过这些新社区进行非法商品交易的证据,这些克隆论坛也会消失。
引言Reddit,作为一个全球性的社交平台,拥有海量的用户生成内容,其中包括大量的图片资源。...对于数据科学家、市场研究人员或任何需要大量图片资源的人来说,自动化地从Reddit收集图片是一个极具价值的技能。...发送请求和获取响应使用requests库发送GET请求到Reddit的热门页面。...def get_reddit_hot(): url = "https://www.reddit.com/r/pics/hot.json" # 访问热门图片板块的JSON API response...复制def crawl_reddit_images(): json_data = get_reddit_hot() image_links = parse_images(json_data)
新智元报道 来源:Reddit 编辑:肖琴,鹏飞 【新智元导读】今天,Reddit机器学习版块的一个热帖引起了许多人的感同身受:“如何阅读大量的学术论文,而不发疯?”...今天,Reddit机器学习版块的一个热帖引起了许多人的感同身受:“如何阅读大量的学术论文,而不发疯?”
图片概述Reddit是一个社交新闻网站,用户可以发布各种主题的内容,包括图片。...本文将介绍如何使用Go语言和Colly库编写一个简单的爬虫程序,从Reddit网站上下载指定主题的图片,并保存到本地文件夹中。...爬虫程序设计我们的爬虫程序主要分为以下几个步骤:创建一个Colly实例,并设置相关选项和回调函数登录亿牛云后台,获取代理相关信息(域名、端口、用户名、密码),并设置到Colly实例中访问Reddit网站...= "16IP" // 密码)func main() {// 创建一个Colly实例c := colly.NewCollector(colly.AllowedDomains("www.reddit.com.../r/%s/%s/", subreddit, filter))}结语本文介绍了如何使用Go语言和Colly库编写一个简单的爬虫程序,从Reddit网站上下载指定主题的图片,并保存到本地文件夹中。
第一作者还在 Reddit 上进行了解答说明,具体可以戳:这里 ,本文为了便于学习,翻译了第一作者的解读说明,不妥则删。
大数据文摘作品 编译:蒋宝尚 近日,Reddit终于采取行动,关闭了Deepfakes论坛,并更新了全网规则,称将会严格审查涉及非自愿情色和未成年性暗示的网站。...Reddit官方禁令声明事情还要从一个机器学习的程序说起:Reddit论坛的网友deepfake用一种AI技术将“小电影”女主角的脸替换成明星盖尔·加朵(神奇女侠的主演)。...在Reddit上,deepfakes组建了一个同名社区,短短一个月,这个板块已经聚集了近两万名订阅者。...而被“抓来”被迫色情的女星也越来越多,从艾玛·沃森到Sophie Turner…… 遏止“非自愿换脸色情片” 不仅仅在reddit,这一“换脸色情片”迅速蔓延到了各大社交网站、论坛,并受到了很多关注。...昨天,Reddit Inc.也终于发出“抵制AI技术合成的爱情动作片”声明。这标志着抵制“假视频”的做法获得了各大平台的认可。 这些公司发布禁令的最主要原因是“非自愿情色”。
这个仓库在Reddit上获得不少点赞,虽然目前不到1000星,但这个项目实在是太过野心勃勃。为什么这么说?因为它涵盖了从深度学习、图形内核、到统计指纹和分解等领域的优秀论文以及对应的Python实现。
选自Reddit 机器之心编译 昨日,DeepMind 在《自然》杂志上发表了一篇论文,正式推出人工智能围棋程序 AlphaGo 的最新版本 AlphaGo Zero。...今天,David Silver 与团队另一成员 Julian Schrittwieser 代表 AlphaGo 创造者在 Reddit 上回答了读者的一系列问题。本文对这些问答作了编译介绍。 ?...David Silver 视频介绍 AlphaGo Zero 以下为 David Silver 与 Julian Schrittwieser 代表 AlphaGo 创造团队在 Reddit 上的问答:...原文链接:https://www.reddit.com/r/MachineLearning/comments/76xjb5/ama_we_are_david_silver_and_julian_schrittwieser
Reddit,作为全球最大的社区平台之一,以其丰富的用户生成内容、广泛的讨论话题和实时的信息更新吸引了大量用户。...对于研究人员和开发者而言,Reddit提供了宝贵的数据源,可用于文本分析、舆情监控和趋势研究等多个领域。然而,由于Reddit的内容实时更新频繁、用户互动活跃,直接爬取其数据面临诸多挑战。...首先,Reddit对频繁的自动化访问有严格的限制,容易触发反爬虫机制,导致IP封禁。其次,高流量请求可能会导致请求速度限制,影响数据获取的效率。...为了解决这些问题,本文将探讨如何使用C#和RestSharp库,结合代理IP技术和多线程技术,实现高效的Reddit内容爬取。...; } // 爬取Reddit内容的方法 private static void FetchRedditContent(string url) {
欢迎指正错误~ 我们想要更好的向用户展示 Reddit 的规模。为了这一点,投票和评论数是一个帖子最重要的指标。然而,在 Reddit 上有相当多的用户只浏览内容,既不投票也不评论。...4、Reddit 是全球访问量第八的网站,系统要能在生产环境的规模上正常运行,仅允许几秒的延迟。 要全部满足以上四个需求的困难远远比听上去大的多。...Reddit 的数据管道依赖于 Kafka。当一个用户访问了一篇博客,会触发一个事件,事件会被发送到事件收集服务器,并被持久化在 Kafka 中。 之后,计数系统会依次顺序运行两个组件。...在未来,我们计划利用我们数据管道在实时方面的潜力来为 Reddit 的用户提供更多的有用的反馈。 Java我最强,是专注Java技术的垂直社群,加入精品技术群请公众号后台留言“加群”。
领取专属 10元无门槛券
手把手带您无忧上云