在BigQuery Reddit数据集中加入带有评论的帖子 - 腾讯云开发者社区

我用来微调模型的数据来自之前检索到的 reddit 评论大型数据库：https://bigquery.cloud.google.com/dataset/fh-bigquery:reddit_comments...这一次，这个模型只是在一个数据集上训练，这个数据集包含了一堆真实的 reddit 评论，用来预测他们实际获得了多少投票。该模型还具有令人惊讶的高预测精度。...用PRAW拉实时评论尽管我可以使用 bigquery 上的数据生成训练集，但大多数数据实际上都是几个月前的。...在社交媒体网站上回复几个月前的评论是一件非常不正常的事情，因此能够以某种方式从 reddit 上获取最新的数据非常重要。...幸运的是，我可以使用 praw 库和下面的代码片段，从几个我认为会产生一些有趣响应的 reddit 中的前 5 个「上升」帖子中获取所有评论。

3.3K3 0

OpenAI用Reddit训练聊天机器人

为此，OpenAI将利用Reddit（北美著名的社交新闻论坛网站）上超过20亿条帖子、新闻、回复、评论作为训练样本来训练其人工智能，且不需要更改代码。...qxf2：我用过Reddit上的数据，当时我制作了一个AI来帮助作家调查人们对问题的看法，就是用Reddit上的评论作为训练样本。...如果你想获得Reddit的数据集，以下链接可能会帮到你（同样出自Hacker News评论）： Syllogism：Reddit语料库是一个非常好的数据库。...语料库可能是这个： http://files.pushshift.io/reddit/comments/ 还有在BigQuery上能够找到截止至2015年末的完整的数据表（2016年的表也可找到，但只有按月份整理的表...BigQuery使用Reddit的数据”指导： http://minimaxir.com/2015/10/reddit-bigquery/ chokma：这里有数据集的种子文件： magnet:?

1.1K4 0

您找到你想要的搜索结果了吗？

是的

没有找到

用毒鸡汤贴训练出的对话AI，弱智程度爆表

2022年4月底，开发者在抓取了Reddit的著名毒鸡汤人生建议/吐槽版块「我是个混蛋吗？」...此网站的用法和各种网络算命与人生指南网站一样，都是提问者输入个问题，程序吐个答案出来。不过，由于核心AI是三个用语言模型被训练出的聊天机器人，以处理训练数据集中的支持、反对、混合意见的贴文。...他们搞过网络梗文化的白皮书和历史讲座，这次整的活是更搞笑的。按开发者的自述，Reddit上的原始训练数据以帖子和评论的方式呈现。开发者使用了帖子的全文，并把它们和各自的高赞评论配对。...之后，通过层层筛选保证这些数据可以产出有良好基础的模型来。这是一件耗时、并且需要不断迭代测试的东西。通过迭代，开发者发现较短的帖子能比长帖生成更好的模型。...并且，获得明确的答案的最好途径是只显示评论的模型。作者在推特上表示，「你们已经听说过了不良数据会让AI变得有偏见，而我们的产品可以让你们彻底享受这种带有偏见的AI！」

3181 0

如何使用 Python 抓取 Reddit网站的数据？

使用 Python 抓取 Reddit 在本文中，我们将了解如何使用Python来抓取Reddit，这里我们将使用Python的PRAW（Python Reddit API Wrapper）模块来抓取数据...在本教程中，我们将仅使用只读实例。抓取 Reddit 子 Reddit 从 Reddit 子版块中提取数据的方法有多种。Reddit 子版块中的帖子按热门、新、热门、争议等排序。...在 pandas 数据框中保存数据 top_posts = pd.DataFrame(posts_dict) top_posts 输出： python Reddit 子版块的热门帖子将数据导出到 CSV...：要从 Reddit 帖子中提取数据，我们需要帖子的 URL。...(url=url) 我们将从我们选择的帖子中提取最佳评论。

2.1K2 0

谷歌AI看不懂网友评论，会错意高达30%，网友：你不懂我的梗

这不，一位博主最近就po出了一篇分析谷歌数据集的文章，发现它对Reddit评论的情绪判别中，错误率竟高达30%。就比如这个例子：我要向朋友怒表达对他的爱意。谷歌数据集把它判断为“生气”。...网友们的发表的评论往往都不是孤立存在的，它所跟的帖子、发布的平台等因素都可能导致整个语义发生变化。比如单看这条评论： his traps hide the fucking sun....忽略评论的帖子本身，或者将其中某个情感色彩强烈的词语单拎出来判断其情绪元素都是不合理的。一个句子并不是孤立存在的，它有其特定的语境，其含义也会随着语境的变化而变化。...在Reddit网站上，网友评论指出“所有的评分者都是以英语为母语的印度人”。这就导致会对一些很常见的习语、语气词及一些特定的“梗”造成误解。...用于训练数据的好坏对于一个模型也至关重要，在新兴的以数据为中心的 AI 方法中，数据的一致性至关重要。为了获得正确的结果，需要固定模型或代码并迭代地提高数据质量。

3103 0

【精选好文】Reddit如何统计每个帖子的浏览量

欢迎指正错误~ 我们想要更好的向用户展示 Reddit 的规模。为了这一点，投票和评论数是一个帖子最重要的指标。然而，在 Reddit 上有相当多的用户只浏览内容，既不投票也不评论。...所以我们想要建立一个能够计算一个帖子浏览数的系统。这一数字会被展示给帖子的创作者和版主，以便他们更好的了解某个帖子的活跃程度。在这篇博客中，我们将讨论我们是如何实现超大数据量的计数。...还有一个好处是，我们可以用一台专门的服务器部署，从而减轻性能上的压力。 ? Reddit 的数据管道依赖于 Kafka。...如果 Nazar 中的处理结果是可以加入计数，那么 Abacus 首先会检查这个事件所关联的帖子在 Redis 中是否已经存在了一个 HLL 计数器。...总结我们希望浏览量可以让发帖者了解帖子全部的访问量，也帮助版主快速定位自己社区中高访问量的帖子。在未来，我们计划利用我们数据管道在实时方面的潜力来为 Reddit 的用户提供更多的有用的反馈。

1.4K4 0

Reddit技术分享被群嘲为「无耻的自我宣传」

楼主在帖子中写道，现在只需要添加几行代码，你模型的运行速度就可以提升10倍甚至更多，但你可能根本没有意识到怎么做。...他总结了一下目前的AI研究情况：人工智能应用就像雨后春笋一样快速增长，并且越来越多的人开始加入人工智能世界，楼主也是AI大军中的一员。但问题是，开发人员只专注于AI，清洗数据和训练模型。...他表示，这个帖子完全是关于一个开源库的，并且自推出以来在GitHub上一直很受欢迎（仅在第一天就有250多颗星）。...不幸的是，这篇文章被贴上了「无耻的自我宣传」的标签，而对技术问题的回答也被其他评论所掩盖。他恳请那些真正尝试过这个库的人再对这个帖子进行评论。...更直接的网友表示，这纯属垃圾信息，不知道这些天reddit发生了什么。也有网友举了最近的另一个帖子当例子：虽然有931个点赞，但高赞评论几乎都是负面评价。

5331 0

IBM团队开发新的AI算法，可以过滤侮辱性语言并以礼貌用语来代替

这是记者们经常重复的一句话：从不读评论。评论部分的内容，可能会是互联网上最黑暗的地方之一，那些毫无根据的侮辱和尖锐的批评像混战中的子弹一样。...例如，专制政府或超越技术公司可以使用类似的算法来标记在线交谈的人的带有政治意味或其他批判性的语言。...而且由于各国政府已经在努力清理网上的谣言，所以想象一下，如果这样的工具在错误的人手中就会具有破坏性，这并不是一件容易的事。...而不是自动编辑你输入的内容。在这方面还有很多优点，会让你在发送内容之前先冷静下来。在经过数百万条推文和Reddit的帖子的训练之后，AI系统在消除亵渎和仇恨词语方面变得非常有效。...一篇Reddit的帖子上写着“What a fucking circus this is”，最后转换成了“what a big circus this is.”

6864 0

Jigsaw开源新的Chrome扩展工具Tune，可过滤社交媒体上的恶意评论

Jigsaw正在推出Chrome扩展，旨在帮助人们过滤社交媒体上的恶意评论。这个名为“Tune”的新开源工具建立在Jigsaw的Perpesctive中引入的机器学习智能的基础上。...使用“过滤器组合”控件，用户可以完全关闭恶意评论（所谓的“禅模式”）或包含攻击，侮辱或亵渎的帖子。Tune还可以与Reddit，YouTube和Disqus一起使用。...在完全模式中，你会看到一切：包括亵渎，侮辱，人身攻击，以及其他评论。当设置到左侧时，你几乎看不到任何评论。值得一提的是，Tune并非真正设计成一款完美的产品，现在这只是一项实验。...Jigsaw产品经理CJ Adams说道，“Tune建立在相同的机器学习模型之上，可以让人们在许多流行的平台上设置对话的量，我们希望Tune能够激发开发人员找到新方法，让更多控制权掌握在人们手中，以调整在互联网上看到的评论水平...Adams补充道，“大多数人都会花更多的时间阅读在线评论，而不是写或审核他们，一个恶意帖子可能让我们彻底放弃讨论，错过阅读其中的宝贵想法。

6433 0

SocialFocus for Mac(Safari隐藏干扰工具)

使用 SocialFocus，您可以设置要阻止的网站和应用程序的自定义列表，然后在需要集中精力时激活这些阻止。...SocialFocus 的独特功能之一是它不仅可以阻止网站，还可以阻止网站内的特定页面或子域。例如，您可以完全阻止 Facebook，或者只阻止访问新闻提要，同时仍然允许访问消息和通知。...隐藏按钮 - 搜索 - 隐藏按钮 - 探索 - 隐藏按钮 - 卷轴 - 隐藏按钮 - 通知 YouTube： - 隐藏首页推荐视频 - 隐藏视频页面侧边栏 - 隐藏视频页面相关视频 - 隐藏短裤 - 隐藏评论...- 隐藏探索 - 隐藏订阅 - 隐藏视频结束画面图片 Reddit: - 隐藏提要 - 隐藏评论 Twitter: - 隐藏主页时间轴 - 隐藏按钮 - 探索 - 隐藏按钮 - 通知 - 隐藏部分...- 适合您的趋势 - 隐藏部分 - 关注谁 LinkedIn: - 隐藏主页 - 隐藏消息弹出窗口 - 隐藏帖子指标 - 隐藏帖子评论 - 隐藏按钮 - 通知

6053 0

Reddit 每日千亿请求背后的故事

这些数据集用于训练多任务深度神经网络模型，这些模型学习个性化实现所需的一个子任务集合这些数据集包含一些在有限的时间范围内按每个用户、每个帖子汇总的特征（如上图所示）。...在这些数据集上，训练的模型会同时嵌入用户、subreddit、帖子和用户上下文，从而使它们能针对特定情况预测用户操作。...例如，对于每位 Reddit 用户，模型都可以分配一个用户对任意新帖子投票的概率，同时还可以分配一个用户订阅某个 subreddit 的概率，以及他们是否会对帖子发表评论的概率。...我们会查看来自模型的数据，以便更好地回答以下问题：我们可以在模型中添加哪些新任务，以更好地了解用户策略？我们可以在当前系统中添加或删除哪些新组件，以使当前系统更加成熟？...我们可以发起哪些新的实验，以便更多地了解我们的用户？ 4下一步计划随着世界的不断变化，我们对 Reddit 平台做出了很多改进：为每位用户提供更相关的内容。加入可能会增强用户体验的实时更改。

4011 0

高效爬取Reddit：C#与RestSharp的完美结合

介绍在数据驱动的时代，网络爬虫已经成为获取网页数据的重要工具。Reddit，作为全球最大的社区平台之一，以其丰富的用户生成内容、广泛的讨论话题和实时的信息更新吸引了大量用户。...对于研究人员和开发者而言，Reddit提供了宝贵的数据源，可用于文本分析、舆情监控和趋势研究等多个领域。然而，由于Reddit的内容实时更新频繁、用户互动活跃，直接爬取其数据面临诸多挑战。...首先，Reddit对频繁的自动化访问有严格的限制，容易触发反爬虫机制，导致IP封禁。其次，高流量请求可能会导致请求速度限制，影响数据获取的效率。...数据解析和统计：使用Newtonsoft.Json库解析JSON响应内容。提取帖子标题、得分和评论数，并进行统计分析。...输出部分帖子标题及统计结果，包括帖子数量、平均得分和平均评论数结论通过本文的技术分析和代码实现，展示了如何使用C#和RestSharp库，结合代理IP和多线程技术，实现高效的Reddit内容爬取。

3741 0

GitHub 上只卖5美元的脚本，却给我带来了一年数十万元报酬

日前 Reddit 一个关于“利用自动化程序完成工作”的帖子迅速走红，收获八万多个赞，以及超 5000 条评论。...作者是一名服务于律所的程序员，他通过脚本程序将自己的工作变成自动化处理，于是每天只需工作 10 分钟，就能赚取“接近 9 万（美元）”的年薪，他在帖子中简要分享了自己的工作。...在律所程序员的帖子下面，有 Reddit 用户提到通过程序自动化工作是个趋势，并可能会影响他们的下一个就业决定。...但也正如帖子里提到的，近年来，类似的例子并不少见。2016 年 Reddit 上也有一个程序员分享说自己在过去 6 年内实际工作时间可能只有 50 个小时，因为入职 8 个月后就把全部工作自动化了。...当时评论如潮，但呈现两极化，有认为 Etherable 出售的不是每星期 40 小时的数据输入工作，而是“处理 X 张试算表”的结果，因此以自动化程序处理并非不道德，但刻意加入错误去掩饰这是不诚实的行为

3391 0

在测试集上训练，还能中CVPR？这篇IEEE批判论文是否合理？

机器之心报道机器之心编辑部今日，一篇论文帖子在 Reddit 的机器学习版块引起了大家的关注。该论文表示 Concetto Spampinato 等人 2017 年的 CVPR 论文存在错误。...那篇论文作出了三个声明：我们提出了一种能对图像激活脑电波的 EEG 数据进行分类的深度学习方法，这种方法在处理目标类别的数量与分类准确率上都超越了顶尖方法。...由于测试集中的试验与训练集样本试验都来自相同的「块」，这相当于在测试时获取了相同静态心理状态，从而「窃取」了训练信息。...Reddit 讨论这篇帖子昨日发布之后，引起了多位研究者的讨论，有从标题开始批评论文《Training on the test set?...这些效应在脑成像领域中是众所周知的，这就是为什么实验方案总是平衡的，并且尝试通过消除有害信号来去除伪像。因此，批评论文中的所有注意力都集中在信号过滤问题上。

6892 0

在测试集上训练，还能中CVPR？这篇IEEE批判论文是否合理？

大家好，又见面了，我是你们的朋友全栈君。今日，一篇论文帖子在 Reddit 的机器学习版块引起了大家的关注。...那篇论文作出了三个声明：我们提出了一种能对图像激活脑电波的 EEG 数据进行分类的深度学习方法，这种方法在处理目标类别的数量与分类准确率上都超越了顶尖方法。...由于测试集中的试验与训练集样本试验都来自相同的「块」，这相当于在测试时获取了相同静态心理状态，从而「窃取」了训练信息。...Reddit 讨论这篇帖子昨日发布之后，引起了多位研究者的讨论，有从标题开始批评论文《Training on the test set?...这些效应在脑成像领域中是众所周知的，这就是为什么实验方案总是平衡的，并且尝试通过消除有害信号来去除伪像。因此，批评论文中的所有注意力都集中在信号过滤问题上。

3252 0

使用Python Dash，主题分析和Reddit Praw API自动生成常见问题解答

很多时候对与他们一直在搜索的内容无关的评论数量感到沮丧。以Reddit为例，主页上有很多帖子。所有的信息杂乱都很难跟踪。...这些Reddit帖子显示了一个论坛可能会在几天不活动的情况下带来多大的混乱在本文中，将更多地了解如何从Reddit等论坛中提取信息更容易，更直观。...Reddit Code获得某个subreddit频道接下来使用以下元数据将hot_python导出到topics.csv 从Reddit Praw中提取帖子后检索的元数据主题提取本节说明如何在...但10月的活动增加 Dash Visualizations 将使用Dash Python，它是在Plotly和Flask之上构建的Python数据可视化框架。...在构建以下原型之后，构建了一个调查，以确认应用程序的有用性。这些是发现的结果，表明93％对非常有用是有用的。用户还发现该应用程序非常直观，可以节省手动搜索未分类帖子的时间。

2.3K2 0

2019年Reddit机器学习板块17个最佳项目：最新代码、资源应有尽有

国外最热论坛Reddit的机器学习板块，也为大家提供了一个优秀的学习讨论场所。那么，在过去的一年Reddit上关注度最高的帖子有哪些呢？...一位来自非洲的数据分析师，总结了机器学习板块上点赞数最高的17篇项目、论文和Demo，希望你能从这些帖子中获得启发。 ?...网站地址： https://www.datasetlist.com/ 48万条用于NLP的影评（464赞）这是作者在电影评论网站“烂番茄”上收集的48万条评论，对NLP任务非常有用。...://github.com/BayesWitnesses/m2cgen/ 探索神经网络的损失情况（339赞）这篇帖子是关于在神经网络的损失曲面中找到不同的图案。...可以通过回复任何带有“ gpt-2 finish this”的评论来使用这个回帖机器人。

1K2 0

Python 数据科学入门教程：TensorFlow 聊天机器人

还有很多其他来源，但我想要的东西更加……原始。有些没有美化的东西，有一些带有为其准备的特征。自然，这把我带到了 Reddit。...相反，我发现了一个 17 亿个 Reddit 评论的数据转储。那么，应该使用它！ Reddit 的结构是树形的，不像论坛，一切都是线性的。父评论是线性的，但父评论的回复是个分支。...最后，你还可以通过 Google BigQuery 查看所有 Reddit 评论。 BigQuery 表似乎随着时间的推移而更新，而 torrent 不是，所以这也是一个不错的选择。...如前所述，所有评论最初都没有父级，也就是因为它是顶级评论（父级是 reddit 帖子本身），或者是因为父级不在我们的文档中。然而，在我们浏览文档时，我们会发现那些评论，父级确实在我们数据库中。...下一个加入我们的网络是一个注意机制，因为尽管数据向前和向后传递，但是我们的网络不能一次记住更长的序列（每次最多 3-10 个标记）。

1.2K1 0

独家 | AI仍然受困于仇恨言论——但科学家们在衡量每个系统失败的地方正做得越来越好

作者：Karen Hao翻译：朱启轩校对：詹好本文约1600字，建议阅读5分钟本文介绍了在一项新的研究中，科学家们测试了四种最佳的检测仇恨言论的人工智能系统，他们发现在带有仇恨情绪和没有仇恨情绪的句子时存在的问题...在一项新的研究中，科学家们测试了四种最佳的检测仇恨言论的人工智能系统，他们发现这些系统或多或少在区分带有仇恨情绪和没有仇恨情绪的句子时存在一些问题。...研究人员随后检查了两个流行的商业公司的服务条款: 谷歌Jigsaw的Perspective API和Two Hat的SiftNinja。两者都允许客户在帖子或评论中举报违规内容。...Perspective API，它被Reddit等平台以及《纽约时报》和《华尔街日报》等新闻机构所使用。它基于有害性的衡量对帖子和评论进行标记和排序，以供人们审查。...Jigsaw现在正致力于开发一项功能，可以根据Perspective的不确定性重新调整帖子和评论的优先级——自动删除那些它认为令人讨厌的内容，并向人们标记出可疑内容。

5622 0

RLHF中的「RL」是必需的吗？有人用二进制交叉熵直接微调LLM，效果更好

从任务上说，研究者探索了三个不同的开放式文本生成任务。在所有实验中，算法从偏好数据集中学习策略。在可控情感生成中，x 是来自 IMDb 数据集的电影评论的前缀，策略必须生成具有积极情感的 y。...为了进行对照评估，实验使用了预先训练好的情感分类器去生成偏好对，其中。对于 SFT，研究者微调了 GPT-2-large，直到收敛于 IMDB 数据集的训练分割的评论。...总之，x 是来自 Reddit 的论坛帖子，该策略必须生成帖子中要点的总结。基于此前工作，实验使用了 Reddit TL;DR 摘要数据集以及 Stiennon et al. 收集的人类偏好。...针对摘要，实验使用测试机中的参考摘要作为极限；针对对话，选用测试数据集中的首选响应作为基线。...最后，研究者考虑了 N 个基线中的最优值，从 SFT 模型 (或对话中的 Preferred-FT) 中采样 N 个回答，并根据从偏好数据集中学习的奖励函数返回得分最高的回答。

4662 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何用 GPT2 和 BERT 建立一个可信的 reddit 自动回复机器人？

OpenAI用Reddit训练聊天机器人

用毒鸡汤贴训练出的对话AI，弱智程度爆表

如何使用 Python 抓取 Reddit网站的数据？

谷歌AI看不懂网友评论，会错意高达30%，网友：你不懂我的梗

【精选好文】Reddit如何统计每个帖子的浏览量

Reddit技术分享被群嘲为「无耻的自我宣传」

IBM团队开发新的AI算法，可以过滤侮辱性语言并以礼貌用语来代替

Jigsaw开源新的Chrome扩展工具Tune，可过滤社交媒体上的恶意评论

SocialFocus for Mac(Safari隐藏干扰工具)

Reddit 每日千亿请求背后的故事

高效爬取Reddit：C#与RestSharp的完美结合

GitHub 上只卖5美元的脚本，却给我带来了一年数十万元报酬

在测试集上训练，还能中CVPR？这篇IEEE批判论文是否合理？

在测试集上训练，还能中CVPR？这篇IEEE批判论文是否合理？

使用Python Dash，主题分析和Reddit Praw API自动生成常见问题解答

2019年Reddit机器学习板块17个最佳项目：最新代码、资源应有尽有

Python 数据科学入门教程：TensorFlow 聊天机器人

独家 | AI仍然受困于仇恨言论——但科学家们在衡量每个系统失败的地方正做得越来越好

RLHF中的「RL」是必需的吗？有人用二进制交叉熵直接微调LLM，效果更好

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐