首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Reddit 每日千亿请求背后的故事

作者丨 Reddit 译者丨王强 策划丨万佳 多年来,Reddit 已经发展成互联网世界一片广阔而多样化的土地。Reddit 的核心是众多社区组成的网络。...从你时间线的内容到整个站点的无数讨论中反映的文化,社区犹如 Reddit 流动的血液,让它变成今天这个模样。Reddit 多年来的增长给一直以来为我们服务的数据处理和服务系统带来了极大压力。...Reddit 具备的庞大规模和多样性,一开始可能很容易让人头晕。如果 Reddit 是一个城市,则 r/popular 页面就会是市政厅,你可以在其中看到那些吸引最多讨论的内容。...今天,Reddit 上的内容在几分钟之内就会完全改变;而与某位用户相关的内容可能会根据他们最近访问的内容而改变。 Reddit 上的用户群体比以往任何时候都更加多样化。...具有各种各样的背景、信仰和处境的人们每天都会访问 Reddit。此外,我们用户的兴趣和态度会随着时间而改变,并期望他们的 Reddit 体验能反映出这种变化。

38910

Reddit竟成为Tik Tok最大竞争对手!短视频应用Dubsmash被社交平台Reddit收购

Reddit收购了短视频应用程序Dubsmash,蓄力进军拥挤的短视频市场。 据悉,Reddit想要借这次收购来整合自己的视频创作部门。...Reddit 2017年就推出了本地视频,而且在2020年使用量获得了2倍的增长。...虽然如此,但Reddit本身仍然以文本内容为主,视频、图片以及动图(GIF)更多来自其他平台,缺乏本地原创视频,所以收购Dubsmash可以帮助Reddit创建自己的视频平台。...Reddit CEO史蒂夫 · 霍夫曼说: 「 Dubsmash 提升了代表性不足的创作者,而 Reddit 则通过成千上万不同的主题和激情培养了一种社区和归属感。」...而Reddit在「乔治·弗洛伊德事件」之后,平台出现了大量的仇恨言论,这在敏感时刻的影响是巨大的。

44520
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    如何使用 Python 抓取 Reddit网站的数据?

    使用 Python 抓取 Reddit 在本文中,我们将了解如何使用Python来抓取Reddit,这里我们将使用Python的PRAW(Python Reddit API Wrapper)模块来抓取数据...Praw 是 Python Reddit API 包装器的缩写,它允许通过 Python 脚本使用 Reddit API。...安装 要安装 PRAW,请在命令提示符下运行以下命令: pip install praw 创建 Reddit 应用程序 第 1 步:要从 Reddit 中提取数据,我们需要创建一个 Reddit 应用程序...这些值将用于使用 python 连接到 Reddit。 创建 PRAW 实例 为了连接到 Reddit,我们需要创建一个 praw 实例。...抓取 RedditRedditReddit 子版块中提取数据的方法有多种。Reddit 子版块中的帖子按热门、新、热门、争议等排序。您可以使用您选择的任何排序方法。

    1.6K20

    OpenAI用Reddit训练聊天机器人

    ,但是OpenAI仅仅是使用Reddit上的数据,所以不会有这个顾虑。...gohrt:在学习算法中设置“仅包含长评论”可能是Reddit上脏话问题最简单的解决办法。 anexprogrammer:虽然过于口语化,但Reddit上有很多的长讨论都是非常正式的。...qxf2:我用过Reddit上的数据,当时我制作了一个AI来帮助作家调查人们对问题的看法,就是用Reddit上的评论作为训练样本。...如果你想获得Reddit的数据集,以下链接可能会帮到你(同样出自Hacker News评论): Syllogism:Reddit语料库是一个非常好的数据库。...BigQuery使用Reddit的数据”指导: http://minimaxir.com/2015/10/reddit-bigquery/ chokma:这里有数据集的种子文件: magnet:?

    1.1K40

    基于用户投票的排名算法(二):Reddit

    Reddit是美国最大的网上社区,它的每个帖子前面都有向上和向下的箭头,分别表示"赞成"和"反对"。用户点击进行投票,Reddit根据投票结果,计算出最新的"热点文章排行榜"。...Reddit的程序是开源的,使用Python语言编写。...结合以上几个变量,Reddit的最终得分计算公式如下: 这个公式可以分成两个部分来讨论: (一) 这个部分表示,赞成票与反对票的差额z越大,得分越高。...结论就是,Reddit的排名,基本上由发帖时间决定,超级受欢迎的文章会排在最前面,一般性受欢迎的文章、有争议的文章都不会很靠前。...这决定了Reddit是一个符合大众口味的社区,不是一个很激进、可以展示少数派想法的地方。 [参考资料]   * How Reddit ranking algorithms work

    95160

    Reddit关闭暗网社区,引发用户热议

    但巨大的地下市场也催生了表网中与暗网有关的社区,Reddit 网站中的 /r/DarkNetMarkets 社区就是一个例子。近日,Reddit 关闭了这个社区,当时其订阅用户数量高达 18 万。...在论坛关闭之前,Reddit 管理员发布了一条新的“直接交易”禁令,禁止用户在论坛或社区中交易某些特定形态的商品。...事实上,Reddit 早就开始探讨实施新的“直接交易”禁令,2 月份美国 Stoneman Douglas 高中的枪击案促使 Reddit 管理员开始批准并执行这项新禁令,主要是为了防止在平台上进行枪支和弹药交易...Reddit 的很多用户对此也期待已久: r / DarkNetMarkets 的用户担心 Reddit 将对他们重磅出击。...但是一旦 Reddit 管理员发现用户通过这些新社区进行非法商品交易的证据,这些克隆论坛也会消失。

    1.5K60

    Go编程:使用 Colly 库下载Reddit网站的图像

    图片概述Reddit是一个社交新闻网站,用户可以发布各种主题的内容,包括图片。...本文将介绍如何使用Go语言和Colly库编写一个简单的爬虫程序,从Reddit网站上下载指定主题的图片,并保存到本地文件夹中。...爬虫程序设计我们的爬虫程序主要分为以下几个步骤:创建一个Colly实例,并设置相关选项和回调函数登录亿牛云后台,获取代理相关信息(域名、端口、用户名、密码),并设置到Colly实例中访问Reddit网站...= "16IP" // 密码)func main() {// 创建一个Colly实例c := colly.NewCollector(colly.AllowedDomains("www.reddit.com.../r/%s/%s/", subreddit, filter))}结语本文介绍了如何使用Go语言和Colly库编写一个简单的爬虫程序,从Reddit网站上下载指定主题的图片,并保存到本地文件夹中。

    33920

    快讯 | Reddit关闭Deepfakes论坛,遏制“非自愿换脸情色”

    大数据文摘作品 编译:蒋宝尚 近日,Reddit终于采取行动,关闭了Deepfakes论坛,并更新了全网规则,称将会严格审查涉及非自愿情色和未成年性暗示的网站。...Reddit官方禁令声明事情还要从一个机器学习的程序说起:Reddit论坛的网友deepfake用一种AI技术将“小电影”女主角的脸替换成明星盖尔·加朵(神奇女侠的主演)。...在Reddit上,deepfakes组建了一个同名社区,短短一个月,这个板块已经聚集了近两万名订阅者。...而被“抓来”被迫色情的女星也越来越多,从艾玛·沃森到Sophie Turner…… 遏止“非自愿换脸色情片” 不仅仅在reddit,这一“换脸色情片”迅速蔓延到了各大社交网站、论坛,并受到了很多关注。...昨天,Reddit Inc.也终于发出“抵制AI技术合成的爱情动作片”声明。这标志着抵制“假视频”的做法获得了各大平台的认可。 这些公司发布禁令的最主要原因是“非自愿情色”。

    2.9K40

    高效爬取Reddit:C#与RestSharp的完美结合

    Reddit,作为全球最大的社区平台之一,以其丰富的用户生成内容、广泛的讨论话题和实时的信息更新吸引了大量用户。...对于研究人员和开发者而言,Reddit提供了宝贵的数据源,可用于文本分析、舆情监控和趋势研究等多个领域。然而,由于Reddit的内容实时更新频繁、用户互动活跃,直接爬取其数据面临诸多挑战。...首先,Reddit对频繁的自动化访问有严格的限制,容易触发反爬虫机制,导致IP封禁。其次,高流量请求可能会导致请求速度限制,影响数据获取的效率。...为了解决这些问题,本文将探讨如何使用C#和RestSharp库,结合代理IP技术和多线程技术,实现高效的Reddit内容爬取。...; } // 爬取Reddit内容的方法 private static void FetchRedditContent(string url) {

    30710

    【精选好文】Reddit如何统计每个帖子的浏览量

    欢迎指正错误~ 我们想要更好的向用户展示 Reddit 的规模。为了这一点,投票和评论数是一个帖子最重要的指标。然而,在 Reddit 上有相当多的用户只浏览内容,既不投票也不评论。...4、Reddit 是全球访问量第八的网站,系统要能在生产环境的规模上正常运行,仅允许几秒的延迟。 要全部满足以上四个需求的困难远远比听上去大的多。...Reddit 的数据管道依赖于 Kafka。当一个用户访问了一篇博客,会触发一个事件,事件会被发送到事件收集服务器,并被持久化在 Kafka 中。 之后,计数系统会依次顺序运行两个组件。...在未来,我们计划利用我们数据管道在实时方面的潜力来为 Reddit 的用户提供更多的有用的反馈。 Java我最强,是专注Java技术的垂直社群,加入精品技术群请公众号后台留言“加群”。

    1.4K40
    领券