首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

在BigQuery Reddit数据集中加入带有评论的帖子

BigQuery是Google Cloud提供的一种托管式数据仓库解决方案,它可以用于存储和分析大规模数据集。Reddit是一个社交媒体平台,用户可以在其上发布帖子和评论。在BigQuery Reddit数据集中加入带有评论的帖子,可以通过以下步骤完成:

  1. 创建BigQuery项目:首先,您需要在Google Cloud上创建一个BigQuery项目。您可以使用Google Cloud控制台或Google Cloud SDK来完成此操作。
  2. 导入Reddit数据集:在BigQuery中,有一个公共可用的Reddit数据集,其中包含了Reddit上的帖子和评论数据。您可以使用以下命令将此数据集导入到您的BigQuery项目中:bq --location=US mk --dataset reddit bq load --autodetect --source_format=NEWLINE_DELIMITED_JSON reddit.comments gs://bigquery-public-data/reddit/comments/2019/RC_2019-01.bz2 bq load --autodetect --source_format=NEWLINE_DELIMITED_JSON reddit.posts gs://bigquery-public-data/reddit/posts/2019/RS_2019-01.bz2
  3. 查询带有评论的帖子:一旦数据集导入完成,您可以使用SQL查询语言在BigQuery中查询带有评论的帖子。以下是一个示例查询,用于获取带有评论的帖子:SELECT p.title, c.body FROM `reddit.posts` AS p JOIN `reddit.comments` AS c ON p.id = c.link_id WHERE p.num_comments > 0

在这个查询中,我们使用了reddit.postsreddit.comments表,并通过p.id = c.link_id将它们连接起来。我们还添加了一个条件p.num_comments > 0来确保只返回带有评论的帖子。

  1. 腾讯云相关产品推荐:腾讯云提供了一系列与云计算相关的产品和服务,以下是一些推荐的产品和产品介绍链接地址:

请注意,以上答案仅供参考,具体的实施步骤和产品选择可能因实际需求和环境而异。

页面内容是否对你有帮助?
有帮助
没帮助

相关·内容

如何用 GPT2 和 BERT 建立一个可信 reddit 自动回复机器人?

我用来微调模型数据来自之前检索到 reddit 评论大型数据库:https://bigquery.cloud.google.com/dataset/fh-bigquery:reddit_comments...这一次,这个模型只是一个数据集上训练,这个数据集包含了一堆真实 reddit 评论,用来预测他们实际获得了多少投票。 该模型还具有令人惊讶高预测精度。...用PRAW拉实时评论 尽管我可以使用 bigquery数据生成训练集,但大多数数据实际上都是几个月前。...社交媒体网站上回复几个月前评论是一件非常不正常事情,因此能够以某种方式从 reddit 上获取最新数据非常重要。...幸运是,我可以使用 praw 库和下面的代码片段,从几个我认为会产生一些有趣响应 reddit前 5 个「上升」帖子中获取所有评论

3.3K30

OpenAI用Reddit训练聊天机器人

为此,OpenAI将利用Reddit(北美著名社交新闻论坛网站)上超过20亿条帖子、新闻、回复、评论作为训练样本来训练其人工智能,且不需要更改代码。...qxf2:我用过Reddit数据,当时我制作了一个AI来帮助作家调查人们对问题看法,就是用Reddit评论作为训练样本。...如果你想获得Reddit数据集,以下链接可能会帮到你(同样出自Hacker News评论): Syllogism:Reddit语料库是一个非常好数据库。...语料库可能是这个: http://files.pushshift.io/reddit/comments/ 还有BigQuery上能够找到截止至2015年末完整数据表(2016年表也可找到,但只有按月份整理表...BigQuery使用Reddit数据”指导: http://minimaxir.com/2015/10/reddit-bigquery/ chokma:这里有数据种子文件: magnet:?

1.1K40
  • 用毒鸡汤贴训练出对话AI,弱智程度爆表

    2022年4月底,开发者抓取了Reddit著名毒鸡汤人生建议/吐槽版块「我是个混蛋吗?」...此网站用法和各种网络算命与人生指南网站一样,都是提问者输入个问题,程序吐个答案出来。 不过,由于核心AI是三个用语言模型被训练出聊天机器人,以处理训练数据集中支持、反对、混合意见贴文。...他们搞过网络梗文化白皮书和历史讲座,这次整活是更搞笑。 按开发者自述,Reddit原始训练数据帖子评论方式呈现。开发者使用了帖子全文,并把它们和各自高赞评论配对。...之后,通过层层筛选保证这些数据可以产出有良好基础模型来。 这是一件耗时、并且需要不断迭代测试东西。通过迭代,开发者发现较短帖子能比长帖生成更好模型。...并且,获得明确答案最好途径是只显示评论模型。 作者推特上表示,「你们已经听说过了不良数据会让AI变得有偏见,而我们产品可以让你们彻底享受这种带有偏见AI!」

    31010

    谷歌AI看不懂网友评论,会错意高达30%,网友:你不懂我

    这不,一位博主最近就po出了一篇分析谷歌数据文章,发现它对Reddit评论情绪判别中,错误率竟高达30%。 就比如这个例子: 我要向朋友怒表达对他爱意。 谷歌数据集把它判断为“生气”。...网友们发表评论往往都不是孤立存在,它所跟帖子、发布平台等因素都可能导致整个语义发生变化。 比如单看这条评论: his traps hide the fucking sun....忽略评论帖子本身,或者将其中某个情感色彩强烈词语单拎出来判断其情绪元素都是不合理。 一个句子并不是孤立存在,它有其特定语境,其含义也会随着语境变化而变化。...Reddit网站上,网友评论指出“所有的评分者都是以英语为母语印度人”。 这就导致会对一些很常见习语、语气词及一些特定“梗”造成误解。...用于训练数据好坏对于一个模型也至关重要,新兴数据为中心 AI 方法中,数据一致性至关重要。为了获得正确结果,需要固定模型或代码并迭代地提高数据质量。

    30630

    【精选好文】Reddit如何统计每个帖子浏览量

    欢迎指正错误~ 我们想要更好向用户展示 Reddit 规模。为了这一点,投票和评论数是一个帖子最重要指标。然而, Reddit 上有相当多用户只浏览内容,既不投票也不评论。...所以我们想要建立一个能够计算一个帖子浏览数系统。这一数字会被展示给帖子创作者和版主,以便他们更好了解某个帖子活跃程度。 在这篇博客中,我们将讨论我们是如何实现超大数据计数。...还有一个好处是,我们可以用一台专门服务器部署,从而减轻性能上压力。 ? Reddit 数据管道依赖于 Kafka。...如果 Nazar 中处理结果是可以加入计数,那么 Abacus 首先会检查这个事件所关联帖子 Redis 中是否已经存在了一个 HLL 计数器。...总  结 我们希望浏览量可以让发帖者了解帖子全部访问量,也帮助版主快速定位自己社区中高访问量帖子未来,我们计划利用我们数据管道实时方面的潜力来为 Reddit 用户提供更多有用反馈。

    1.4K40

    Reddit技术分享被群嘲为「无耻自我宣传」

    楼主帖子中写道,现在只需要添加几行代码,你模型运行速度就可以提升10倍甚至更多,但你可能根本没有意识到怎么做。...他总结了一下目前AI研究情况: 人工智能应用就像雨后春笋一样快速增长,并且越来越多的人开始加入人工智能世界,楼主也是AI大军中一员。但问题是,开发人员只专注于AI,清洗数据和训练模型。...他表示,这个帖子完全是关于一个开源库,并且自推出以来GitHub上一直很受欢迎(仅在第一天就有250多颗星)。...不幸是,这篇文章被贴上了「无耻自我宣传」标签,而对技术问题回答也被其他评论所掩盖。 他恳请那些真正尝试过这个库的人再对这个帖子进行评论。...更直接网友表示,这纯属垃圾信息,不知道这些天reddit发生了什么。 也有网友举了最近另一个帖子当例子:虽然有931个点赞,但高赞评论几乎都是负面评价。

    52610

    IBM团队开发新AI算法,可以过滤侮辱性语言并以礼貌用语来代替

    这是记者们经常重复一句话:从不读评论评论部分内容,可能会是互联网上最黑暗地方之一,那些毫无根据侮辱和尖锐批评像混战中子弹一样。...例如,专制政府或超越技术公司可以使用类似的算法来标记在线交谈的人带有政治意味或其他批判性语言。...而且由于各国政府已经努力清理网上谣言,所以想象一下,如果这样工具错误的人手中就会具有破坏性,这并不是一件容易事。...而不是自动编辑你输入内容。 在这方面还有很多优点,会让你在发送内容之前先冷静下来。 经过数百万条推文和Reddit帖子训练之后,AI系统消除亵渎和仇恨词语方面变得非常有效。...一篇Reddit帖子上写着“What a fucking circus this is”,最后转换成了“what a big circus this is.”

    66840

    SocialFocus for Mac(Safari隐藏干扰工具)

    使用 SocialFocus,您可以设置要阻止网站和应用程序自定义列表,然后需要集中精力时激活这些阻止。...SocialFocus 独特功能之一是它不仅可以阻止网站,还可以阻止网站内特定页面或子域。例如,您可以完全阻止 Facebook,或者只阻止访问新闻提要,同时仍然允许访问消息和通知。...隐藏按钮 - 搜索 - 隐藏按钮 - 探索 - 隐藏按钮 - 卷轴 - 隐藏按钮 - 通知 YouTube: - 隐藏首页推荐视频 - 隐藏视频页面侧边栏 - 隐藏视频页面相关视频 - 隐藏短裤 - 隐藏评论...- 隐藏探索 - 隐藏订阅 - 隐藏视频结束画面 图片 Reddit: - 隐藏提要 - 隐藏评论 Twitter: - 隐藏主页时间轴 - 隐藏按钮 - 探索 - 隐藏按钮 - 通知 - 隐藏部分...- 适合您趋势 - 隐藏部分 - 关注谁 LinkedIn: - 隐藏主页 - 隐藏消息弹出窗口 - 隐藏帖子指标 - 隐藏帖子评论 - 隐藏按钮 - 通知

    59530

    Jigsaw开源新Chrome扩展工具Tune,可过滤社交媒体上恶意评论

    Jigsaw正在推出Chrome扩展,旨在帮助人们过滤社交媒体上恶意评论。这个名为“Tune”新开源工具建立JigsawPerpesctive中引入机器学习智能基础上。...使用“过滤器组合”控件,用户可以完全关闭恶意评论(所谓“禅模式”)或包含攻击,侮辱或亵渎帖子。Tune还可以与Reddit,YouTube和Disqus一起使用。...完全模式中,你会看到一切:包括亵渎,侮辱,人身攻击,以及其他评论。当设置到左侧时,你几乎看不到任何评论。 值得一提是,Tune并非真正设计成一款完美的产品,现在这只是一项实验。...Jigsaw产品经理CJ Adams说道,“Tune建立相同机器学习模型之上,可以让人们许多流行平台上设置对话量,我们希望Tune能够激发开发人员找到新方法,让更多控制权掌握人们手中,以调整在互联网上看到评论水平...Adams补充道,“大多数人都会花更多时间阅读在线评论,而不是写或审核他们,一个恶意帖子可能让我们彻底放弃讨论,错过阅读其中宝贵想法。

    63030

    Reddit 每日千亿请求背后故事

    这些数据集用于训练多任务深度神经网络模型,这些模型学习个性化实现所需一个子任务集合 这些数据集包含一些在有限时间范围内按每个用户、每个帖子汇总特征(如上图所示)。...在这些数据集上,训练模型会同时嵌入用户、subreddit、帖子和用户上下文,从而使它们能针对特定情况预测用户操作。...例如,对于每位 Reddit 用户,模型都可以分配一个用户对任意新帖子投票概率,同时还可以分配一个用户订阅某个 subreddit 概率,以及他们是否会对帖子发表评论概率。...我们会查看来自模型数据,以便更好地回答以下问题: 我们可以模型中添加哪些新任务,以更好地了解用户策略? 我们可以在当前系统中添加或删除哪些新组件,以使当前系统更加成熟?...我们可以发起哪些新实验,以便更多地了解我们用户? 4下一步计划 随着世界不断变化,我们对 Reddit 平台做出了很多改进: 为每位用户提供更相关内容。 加入可能会增强用户体验实时更改。

    38910

    高效爬取Reddit:C#与RestSharp完美结合

    介绍在数据驱动时代,网络爬虫已经成为获取网页数据重要工具。Reddit,作为全球最大社区平台之一,以其丰富用户生成内容、广泛讨论话题和实时信息更新吸引了大量用户。...对于研究人员和开发者而言,Reddit提供了宝贵数据源,可用于文本分析、舆情监控和趋势研究等多个领域。然而,由于Reddit内容实时更新频繁、用户互动活跃,直接爬取其数据面临诸多挑战。...首先,Reddit对频繁自动化访问有严格限制,容易触发反爬虫机制,导致IP封禁。其次,高流量请求可能会导致请求速度限制,影响数据获取效率。...数据解析和统计:使用Newtonsoft.Json库解析JSON响应内容。提取帖子标题、得分和评论数,并进行统计分析。...输出部分帖子标题及统计结果,包括帖子数量、平均得分和平均评论数结论通过本文技术分析和代码实现,展示了如何使用C#和RestSharp库,结合代理IP和多线程技术,实现高效Reddit内容爬取。

    30710

    GitHub 上只卖5美元脚本,却给我带来了一年数十万元报酬

    日前 Reddit 一个关于“利用自动化程序完成工作”帖子迅速走红,收获八万多个赞,以及超 5000 条评论。...作者是一名服务于律所程序员,他通过脚本程序将自己工作变成自动化处理,于是每天只需工作 10 分钟,就能赚取“接近 9 万(美元)”年薪,他帖子中简要分享了自己工作。...律所程序员帖子下面,有 Reddit 用户提到通过程序自动化工作是个趋势,并可能会影响他们下一个就业决定。...但也正如帖子里提到,近年来,类似的例子并不少见。2016 年 Reddit 上也有一个程序员分享说自己在过去 6 年内实际工作时间可能只有 50 个小时,因为入职 8 个月后就把全部工作自动化了。...当时评论如潮,但呈现两极化,有认为 Etherable 出售不是每星期 40 小时数据输入工作,而是“处理 X 张试算表”结果,因此以自动化程序处理并非不道德,但刻意加入错误去掩饰这是不诚实行为

    33510

    测试集上训练,还能中CVPR?这篇IEEE批判论文是否合理?

    大家好,又见面了,我是你们朋友全栈君。 今日,一篇论文帖子 Reddit 机器学习版块引起了大家关注。...那篇论文作出了三个声明: 我们提出了一种能对图像激活脑电波 EEG 数据进行分类深度学习方法,这种方法处理目标类别的数量与分类准确率上都超越了顶尖方法。...由于测试集中试验与训练集样本试验都来自相同「块」,这相当于测试时获取了相同静态心理状态,从而「窃取」了训练信息。...Reddit 讨论 这篇帖子昨日发布之后,引起了多位研究者讨论,有从标题开始批评论文《Training on the test set?...这些效应在脑成像领域中是众所周知,这就是为什么实验方案总是平衡,并且尝试通过消除有害信号来去除伪像。因此,批评论文中所有注意力都集中信号过滤问题上。

    32120

    使用Python Dash,主题分析和Reddit Praw API自动生成常见问题解答

    很多时候对与他们一直搜索内容无关评论数量感到沮丧。以Reddit为例,主页上有很多帖子。所有的信息杂乱都很难跟踪。...这些Reddit帖子显示了一个论坛可能会在几天不活动情况下带来多大混乱 本文中,将更多地了解如何从Reddit等论坛中提取信息更容易,更直观。...Reddit Code获得某个subreddit频道 接下来使用以下元数据将hot_python导出到topics.csv 从Reddit Praw中提取帖子后检索数据 主题提取 本节说明如何在...但10月活动增加 Dash Visualizations 将使用Dash Python,它是Plotly和Flask之上构建Python数据可视化框架。...构建以下原型之后,构建了一个调查,以确认应用程序有用性。这些是发现结果,表明93%对非常有用是有用。用户还发现该应用程序非常直观,可以节省手动搜索未分类帖子时间。

    2.3K20

    测试集上训练,还能中CVPR?这篇IEEE批判论文是否合理?

    机器之心报道 机器之心编辑部 今日,一篇论文帖子 Reddit 机器学习版块引起了大家关注。该论文表示 Concetto Spampinato 等人 2017 年 CVPR 论文存在错误。...那篇论文作出了三个声明: 我们提出了一种能对图像激活脑电波 EEG 数据进行分类深度学习方法,这种方法处理目标类别的数量与分类准确率上都超越了顶尖方法。...由于测试集中试验与训练集样本试验都来自相同「块」,这相当于测试时获取了相同静态心理状态,从而「窃取」了训练信息。...Reddit 讨论 这篇帖子昨日发布之后,引起了多位研究者讨论,有从标题开始批评论文《Training on the test set?...这些效应在脑成像领域中是众所周知,这就是为什么实验方案总是平衡,并且尝试通过消除有害信号来去除伪像。因此,批评论文中所有注意力都集中信号过滤问题上。

    68720

    Python 数据科学入门教程:TensorFlow 聊天机器人

    还有很多其他来源,但我想要东西更加……原始。有些没有美化东西,有一些带有为其准备特征。自然,这把我带到了 Reddit。...相反,我发现了一个 17 亿个 Reddit 评论数据转储。那么,应该使用它! Reddit 结构是树形,不像论坛,一切都是线性。父评论是线性,但父评论回复是个分支。...最后,你还可以通过 Google BigQuery 查看所有 Reddit 评论BigQuery 表似乎随着时间推移而更新,而 torrent 不是,所以这也是一个不错选择。...如前所述,所有评论最初都没有父级,也就是因为它是顶级评论(父级是 reddit 帖子本身),或者是因为父级不在我们文档中。 然而,我们浏览文档时,我们会发现那些评论,父级确实在我们数据库中。...下一个加入我们网络是一个注意机制,因为尽管数据向前和向后传递,但是我们网络不能一次记住更长序列(每次最多 3-10 个标记)。

    1.2K10

    2019年Reddit机器学习板块17个最佳项目:最新代码、资源应有尽有

    国外最热论坛Reddit机器学习板块,也为大家提供了一个优秀学习讨论场所。 那么,在过去一年Reddit上关注度最高帖子有哪些呢?...一位来自非洲数据分析师,总结了机器学习板块上点赞数最高17篇项目、论文和Demo,希望你能从这些帖子中获得启发。 ?...网站地址: https://www.datasetlist.com/ 48万条用于NLP影评(464赞) 这是作者电影评论网站“烂番茄”上收集48万条评论,对NLP任务非常有用。...://github.com/BayesWitnesses/m2cgen/ 探索神经网络损失情况(339赞) 这篇帖子是关于神经网络损失曲面中找到不同图案。...可以通过回复任何带有“ gpt-2 finish this”评论来使用这个回帖机器人。

    1K20

    独家 | AI仍然受困于仇恨言论——但科学家们衡量每个系统失败地方正做得越来越好

    作者:Karen Hao翻译:朱启轩校对:詹好 本文约1600字,建议阅读5分钟本文介绍了一项新研究中,科学家们测试了四种最佳检测仇恨言论的人工智能系统,他们发现在带有仇恨情绪和没有仇恨情绪句子时存在问题...一项新研究中,科学家们测试了四种最佳检测仇恨言论的人工智能系统,他们发现这些系统或多或少区分带有仇恨情绪和没有仇恨情绪句子时存在一些问题。...研究人员随后检查了两个流行商业公司服务条款: 谷歌JigsawPerspective API和Two HatSiftNinja。两者都允许客户帖子评论中举报违规内容。...Perspective API,它被Reddit等平台以及《纽约时报》和《华尔街日报》等新闻机构所使用。它基于有害性衡量对帖子评论进行标记和排序,以供人们审查。...Jigsaw现在正致力于开发一项功能,可以根据Perspective不确定性重新调整帖子评论优先级——自动删除那些它认为令人讨厌内容,并向人们标记出可疑内容。

    54720

    动漫美少女生成神器、猫门禁...2019年十七大最佳机器学习项目 |年度盘点①

    · · · 4、数据集:480000个NLP烂番茄(Rotten Tomatoes)评价,标记为好/不好 (ps:烂番茄是一个以提供电影、电子游戏及电视节目的相关评论、资讯和新闻为主网站。...作者从网上搜罗了烂番茄评论,这些评论自然语言处理任务中非常有用。 ?...· · · 14、探索神经网络损失情况 摘自作者帖子:“该帖子是关于神经网络损失面中找到不同模式。...论文链接: https://arxiv.org/abs/1910.03867 · · · 15、基于GPT-2Reddit Bot 作者构建了一个由OpenAIGPT-2驱动Reddit...GitHub链接: https://github.com/openai/gpt-2 可以通过回复任何带有“ gpt-2完成此操作”评论来使用该机器人。 ?

    92810
    领券