开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

如何在数据流管道中修复"AttributeError：'str‘对象没有属性'items'“从PubSub读取并写入BigQuery

在数据流管道中遇到AttributeError: 'str' object has no attribute 'items'错误通常是因为在处理数据时，某个步骤期望一个字典对象，但实际接收到的是一个字符串。这种情况在从PubSub读取数据并写入BigQuery时尤为常见，因为PubSub消息通常是JSON格式的字符串。

基础概念

PubSub: 一种消息传递服务，用于在应用程序之间传递消息。
BigQuery: 一种完全托管的数据仓库服务，用于大规模数据分析。
数据流管道: 用于处理和转换数据的流程，通常涉及多个组件和服务。

相关优势

可扩展性: 数据流管道可以轻松处理大量数据。
灵活性: 可以根据需求自定义数据处理逻辑。
实时处理: 能够实时处理和分析数据。

类型

批处理管道: 处理大量历史数据。
流处理管道: 实时处理数据流。

应用场景

实时数据分析: 如监控系统、日志分析等。
数据集成: 将不同来源的数据整合到一个系统中。
机器学习数据预处理: 在模型训练前对数据进行清洗和转换。

问题原因及解决方法

问题原因

AttributeError: 'str' object has no attribute 'items'错误通常是因为在处理PubSub消息时，某个函数或方法期望一个字典对象，但实际接收到的是一个JSON格式的字符串。

解决方法

解析JSON字符串: 在处理PubSub消息之前，先将JSON字符串解析为字典对象。
异常处理: 添加异常处理机制，确保在解析失败时能够捕获并处理异常。

以下是一个示例代码，展示了如何在数据流管道中修复这个问题：

import json
from apache_beam import Pipeline, ReadFromPubSub, WriteToBigQuery
from apache_beam.options.pipeline_options import PipelineOptions

class ParseMessage(beam.DoFn):
    def process(self, element):
        try:
            # 将JSON字符串解析为字典对象
            record = json.loads(element.decode('utf-8'))
            yield record
        except json.JSONDecodeError as e:
            # 处理解析失败的情况
            print(f"Failed to parse JSON: {e}")
            yield None

def run():
    options = PipelineOptions()
    
    with Pipeline(options=options) as p:
        (p
         | 'Read from PubSub' >> ReadFromPubSub(topic='your-pubsub-topic')
         | 'Parse JSON' >> beam.ParDo(ParseMessage())
         | 'Filter valid records' >> beam.Filter(lambda x: x is not None)
         | 'Write to BigQuery' >> WriteToBigQuery(
               table='your-project-id:your_dataset.your_table',
               schema='your_schema',
               write_disposition=beam.io.BigQueryDisposition.WRITE_APPEND,
               create_disposition=beam.io.BigQueryDisposition.CREATE_IF_NEEDED))

if __name__ == '__main__':
    run()

关键步骤解释

ReadFromPubSub: 从PubSub读取消息。
ParseMessage: 自定义DoFn，用于解析JSON字符串并捕获解析异常。
Filter valid records: 过滤掉解析失败的记录。
Write to BigQuery: 将有效记录写入BigQuery。

通过这种方式，可以有效避免AttributeError: 'str' object has no attribute 'items'错误，并确保数据流管道的稳定运行。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

弃用 Lambda，Twitter 启用 Kafka 和数据流新架构

事件处理器处理向 Pubsub 事件表示法的转换，并生成由 UUID 和其他与处理背景相关的元信息组成的事件背景。UUID 被下游的数据流工作器用来进行重复数据删除。...我们对系统进行了优化，使其在重复数据删除窗口尽可能地实现重复数据删除。我们通过同时将数据写入 BigQuery 并连续查询重复的百分比，结果表明了高重复数据删除的准确性，如下所述。...整个系统每秒可以流转数百万个事件，延迟低至约 10 秒钟，并且可以在我们的内部和云端流系统中扩展高流量。我们使用云 Pubsub 作为消息缓冲器，同时保证整个内部流系统没有数据损失。...第一步，我们创建了一个单独的数据流管道，将重复数据删除前的原始事件直接从 Pubsub 导出到 BigQuery。然后，我们创建了用于连续时间的查询计数的预定查询。...第二步，我们创建了一个验证工作流，在这个工作流中，我们将重复数据删除的和汇总的数据导出到 BigQuery，并将原始 TSAR 批处理管道产生的数据从 Twitter 数据中心加载到谷歌云上的 BigQuery

1.7K2 0

用MongoDB Change Streams 在BigQuery中复制数据

在一定的规模上为了分析而查询MongoDB是低效的； 2. 我们没有把所有数据放在MongoDB中（例如分条计费信息）。在一定的规模上，作为服务供应商的数据管道价格昂贵。...没有updated_at字段，我们如何知道要复制那些更新的记录呢？ 2. 这种方法不会跟踪已删除记录。我们只是把他们从原始集合中移除了，但永远不会在Big Query表中进行更新。...一个读取带有增量原始数据的源表并实现在一个新表中查询的dbt cronjob(dbt,是一个命令行工具，只需编写select语句即可转换仓库中的数据;cronjob,顾名思义，是一种能够在固定时间运行的...这个表中包含了每一行自上一次运行以来的所有状态。这是一个dbt SQL在生产环境下如何操作的例子。通过这两个步骤，我们实时拥有了从MongoDB到Big Query的数据流。...我们备份了MongoDB集合，并制作了一个简单的脚本以插入用于包裹的文档。这些记录送入到同样的BigQuery表中。现在，运行同样的dbt模型给了我们带有所有回填记录的最终表。

4.1K2 0

Apache Kafka - 构建数据管道 Kafka Connect

它描述了如何从数据源中读取数据，并将其传输到Kafka集群中的特定主题或如何从Kafka集群中的特定主题读取数据，并将其写入数据存储或其他目标系统中。...Cloud Object stores连接器：用于从云对象存储（如Amazon S3、Azure Blob Storage和Google Cloud Storage）中读取数据，并将其写入Kafka集群中的指定主题...，或从Kafka集群中的指定主题读取数据，并将其写入云对象存储中。...Cloud data warehouses连接器：用于从云数据仓库（如Snowflake、Google BigQuery和Amazon Redshift）中读取数据，并将其写入Kafka集群中的指定主题...故障处理:处理异常数据,重试并修复。因为 Kafka 长期保留数据,可以重新处理历史数据。耦合性和灵活性: 避免针对每个应用创建单独的数据管道,增加维护成本。

9922 0

pickle —— Python 对象序列化(python=3.8)

如果返回其他值，Pickler 会将这个函数的返回值作为 obj 的持久化 ID（Pickler 本应得到序列化数据流并将其写入文件，若此函数有返回值，则得到此函数的返回值并写入文件）。...Pickler 对象默认并没有 dispatch_table 属性，该对象默认使用 copyreg 模块中定义的全局 dispatch 表。...encoding 可设为 ‘bytes’ 以将这些 8 位字符串实例作为字节对象来读取。 load() 从构造函数中指定的文件对象里读取打包好的对象，重建其中特定对象的层次结构并返回。...这样设计是有目的的，在将来修复类中的错误、给类增加方法之后，仍然可以载入原来版本类实例的打包数据来还原该实例。...可选元素，用于表示对象的状态，将被传给前述的 setstate() 方法。如果对象没有此方法，则这个元素必须是字典类型，并会被添加至 dict 属性中。

1.3K2 0

Java实现文件写入——IO流（输入输出流详解）

程序从输入流读取数据，向输出流写入数据。Java是面向对象的程序语言，每一个数据流都是一个对象，它们提供了各种支持“读入”与“写入”操作的流类。...Abstract int read() 从当前数据流中读取一个字节。...下面通过实例如何使用InputStream从控制台获取用户输入的数据信息。...，定义为控制台输入流，从inp输入流中获取字节信息， * 用这些字节信息创建字符串，并将其在控制台上输出。...) 向输入流中写入一个字符串数据 void write(String str , int off ,int len) 向输入流中写入一个字符串从off 开始长度为len的数据 Abstract void

2.4K3 1

使用Kafka，如何成功迁移SQL数据库中超过20亿条记录？

将数据从 MySQL 流到 Kafka 关于如何将数据从 MySQL 流到 Kafka，你可能会想到 Debezium（https://debezium.io）或 Kafka Connect。...在我们的案例中，我们需要开发一个简单的 Kafka 生产者，它负责查询数据，并保证不丢失数据，然后将数据流到 Kafka，以及另一个消费者，它负责将数据发送到 BigQuery，如下图所示。 ?...将数据流到分区表中通过整理数据来回收存储空间在将数据流到 BigQuery 之后，我们就可以轻松地对整个数据集进行分析，并验证一些新的想法，比如减少数据库中表所占用的空间。...将数据流入新表整理好数据之后，我们更新了应用程序，让它从新的整理表读取数据。我们继续将数据写入之前所说的分区表，Kafka 不断地从这个表将数据推到整理表中。...另一点很重要的是，所有这些都是在没有停机的情况下完成的，因此客户不会受到影响。总结总的来说，我们使用 Kafka 将数据流到 BigQuery。

3.2K2 0

解决AttributeError: collections.defaultdict object has no attribute iteritems

在Python 2中，iteritems方法用于返回字典的迭代器对象，可以用于遍历字典的键值对。但是在Python 3中，iteritems方法被items方法替代。...而collections.defaultdict是Python字典的一个子类，继承了Python字典的所有方法和属性，因此也没有iteritems方法。...这个示例代码展示了在处理文本统计的实际场景中，如何正确地使用collections.defaultdict对象，并解决了可能出现的AttributeError: 'collections.defaultdict...defaultdict(int)对象，并通过访问count_dict中的键来自动创建并计数。...需要注意的是，在Python 3中，如果我们使用iteritems方法，会抛出AttributeError错误。

4171 0

20亿条记录的MySQL大表迁移实战

将数据从 MySQL 流到 Kafka 关于如何将数据从 MySQL 流到 Kafka，你可能会想到 Debezium（https://debezium.io）或 Kafka Connect。...在我们的案例中，我们需要开发一个简单的 Kafka 生产者，它负责查询数据，并保证不丢失数据，然后将数据流到 Kafka，以及另一个消费者，它负责将数据发送到 BigQuery，如下图所示。...将数据流到分区表中通过整理数据来回收存储空间在将数据流到 BigQuery 之后，我们就可以轻松地对整个数据集进行分析，并验证一些新的想法，比如减少数据库中表所占用的空间。...其中一个想法是验证不同类型的数据是如何在表中分布的。后来发现，几乎 90% 的数据是没有必要存在的，所以我们决定对数据进行整理。...另一点很重要的是，所有这些都是在没有停机的情况下完成的，因此客户不会受到影响。总结总的来说，我们使用 Kafka 将数据流到 BigQuery。

4.7K1 0

IO流总结

数据写入程序可以是一段、一段地向数据流管道中写入数据，这些数据段会按先后顺序形成一个长的数据流。...将数据冲外存中读取到内存中的称为输入流，将数据从内存写入外存中的称为输出流。流是一个很形象的概念，当程序需要读取数据的时候，就会开启一个通向数据源的流，这个数据源可以是文件，内存，或是网络连接。...在将整个文件读取完成或写入完毕的过程中，这么一个byte数组通常被当作缓冲区，因为这么一个byte数组通常扮演承接数据的中间角色。 ? 作用：以文件作为数据输入源的数据流。...程序说明：从键盘读入字符，并写入到文件中BufferedReader类的方法：String readLine() 作用：读一行字符串，以回车符为结束。...(String str,int off,int len) throws IOException； //将字符串str 中从索引off开始处的len个字符写入输出流 (6) flush( ) //刷空输出流

1.3K7 0

一文读懂Kafka Connect核心概念

Connector：通过管理任务来协调数据流的高级抽象 Tasks：描述如何从Kafka复制数据 Workers：执行连接器和任务的运行进程 Converters：用于在 Connect 和发送或接收数据的系统之间转换数据的代码...[33] Converters 在向 Kafka 写入或从 Kafka 读取数据时，转换器是必要的，以使 Kafka Connect 部署支持特定的数据格式。...下图显示了在使用 JDBC 源连接器从数据库读取、写入 Kafka 以及最后使用 HDFS 接收器连接器写入 HDFS 时如何使用转换器。...从应用程序写入数据存储 [2022010916570938.png] 在您的应用程序中，您可以创建要写入目标系统的数据。...因此，您想知道为什么不直接编写自己的代码从系统中获取数据并将其写入 Kafka 是非常正确的——编写一小段消费者代码以从系统读取数据是否有意义？主题并将其推送到目标系统？

1.9K0 0

Java(2)-Java IO输入输出流

数据写入程序可以是一段、一段地向数据流管道中写入数据，这些数据段会按先后顺序形成一个长的数据流。...将数据冲外存中读取到内存中的称为输入流，将数据从内存写入外存中的称为输出流。...在将整个文件读取完成或写入完毕的过程中，这么一个byte数组通常被当作缓冲区，因为这么一个byte数组通常扮演承接数据的中间角色。作用：以文件作为数据输入源的数据流。...(String str,int off,int len) throws IOException； //将字符串str 中从索引off开始处的len个字符写入输出流 (6) flush( ) //刷空输出流...主要方法： void write(String str) //写入字符串。当执行完此方法后，字符数据还并没有写入到目的文件中去。此时字符数据会保存在缓冲区中。

8101 0

python协程2：yield from 分析

上一篇python协程1：yield的使用介绍了：生成器作为协程使用时的行为和状态使用装饰器预激协程调用方如何使用生成器对象的 .throw(…) 和 .close() 方法控制协程这一篇将介绍...生成器对象会抛出StopIteration异常。异常对象的value属性保存着返回值。..., ignore_types=(str, bytes)): for x in items: if isinstance(x, Iterable) and not isinstance...'boys;m': [1.6, 1.8, 1.8, 1.7, 1.55, 1.6], } if __name__ == '__main__': main(data) 这段代码从一个字典中读取男生和女生的身高和体重...这个案例说明了如何使用协程在单线程中管理并发活动。

8341 0

python简明笔记

写入到文件中的任何数据将自动添加到末尾文件关闭 close()方法完成文件按关闭始终确保你显式关闭每个打开的文件，一旦它的工作完成你没有任何理由保持打开文件。...如果没有指定 size 或者指定为负数，就会读取并返回整个文件。当文件大小为当前机器内存两倍时，就会产生问题。反之，会尽可能按比较大的 size 读取和返回数据。...使用 readlines() 方法读取所有行到一个列表中。你可以循环遍历文件对象来读取文件中的每一行。...fp中读取图像，我们首先要判断该fp对象是否存在read方法，如果存在，则该对象是一个流，如果不存在，则无法读取。...'score'没有被放到__slots__中，所以不能绑定score属性，试图绑定score将得到AttributeError的错误。

2.2K9 0

python常用标准库

str.partition(指定分割的字符串)：从指定str字符串中，查找制定分割的字符串，返回一个列表包含它的前面部分，它自身和它的后面部分；如果字符串的匹配没有成功，则返回它自身和前后两个空字符。...f.read(读取数据的长度)：使用read可以从文件中读取指定长度的数据，并将指针移到这条数据之后；默认读取全部数据。...一个管道有两个端口，分别为pipe[0]与pipe[1] pipe[0].send(向管道中添加的数据)：管道的添加操作。 pipe[0].recv()：从管道中取出对应的数据信息。...3、from multiprocessing import Process,Queue：应用对应的包，为实现进程之间的通信操作；管道的俩个端一个是负责向里面写入数据，一个是负责向外面读取数据。...q=Queue()：创建一个队列对象。 q.put(要添加到队列中的数据信息)：将制定的数据添加到队列当中去。 q.get(True)：从队列中要提取出的队列数据信息。

9242 0

10-面向对象2

在Python中，如果你调用len()函数试图获取一个对象的长度，实际上，在len()函数内部，它自动去调用该对象的__len__()方法，所以，下面的代码是等价的： >>> len('ABC') 3...__slots__中，所以不能绑定score属性，试图绑定score将得到AttributeError的错误。...(args)) 当用户定义一个class User(Model)时，Python解释器首先在当前类User的定义中查找metaclass，如果没有找到，就继续在父类Model中查找metaclass，找到了...在ModelMetaclass中，一共做了几件事情：排除掉对Model类的修改；在当前类（比如User）中查找定义的类的所有属性，如果找到一个Field属性，就把它保存到一个__mappings__...的dict中，同时从类属性中删除该Field属性，否则，容易造成运行时错误（实例的属性会遮盖类的同名属性）；把表名保存到__table__中，这里简化为表名默认为类名。

1.5K2 0

Python内置（4）类相关的内置

x,y,z，并指向这两个对象：x指向第一个对象，y,z都指向另一个对象。...dir and vars: 一切都是字典你有没有想过Python如何存储对象，它们的变量及方法？我们知道所有对象都有自己的属性和方法，但是Python究竟如何跟踪它们呢？...x和y存储在其对象自己的字典中，方法实际上作为函数存储在类的字典中。...这两种不同的存储数据方式，在Python中用__dict__和__slots__呈现。通常，实例属性(如self.foo)存储在__dict__字典中。...getters 和 setter 提供了一种在尝试读取或修改对象的属性时添加验证或运行一些额外代码的方法。

2.4K3 0

爆肝 50 道 Python 面试题 (下)

在没有多重继承的情况下，向对象发出一个消息，如果对象没有对应的方法，那么向上（父类）搜索的顺序是非常清晰的。...random.sample(population, k)函数可以从总体中随机抽取（无放回抽样）出容量为k的样本并返回样本的列表。...如果字典中没有键x，会引发KeyError；如果键x对应的值不是str、float、int、bool以及bytes-like类型，在调用int函数构造int类型的对象时，会引发TypeError；如果a...[10, 'a'] [123] [10, 'a'] 题目40 如何读取大文件，例如内存只有4G，如何读取一个大小为8G的文件？...的顶层属性中，数据就不能再修改了，也就意味着对象上的所有属性都遵循“一次写入，多次读取”的原则。

6462 0

【Linux】基于管道进行进程间通信

假设我们让子进程在写入前，休眠一段时间，而现在的管道是空的，我们观察父进程会如何： // 子进程写入 void Write(int wfd) { string str...没有了！因为写满了又怎样呢，又没有进程去读，所以当写端正常，读端关闭了，操作系统就要 kill 掉正在写入的进程。如何 kill 呢？...该管道看起来是在磁盘中存在，但是它实际数据并不会刷新到磁盘上。那么如何让两个进程进行通信呢？我们创建两个终端，两个终端都在当前目录下，一个写，另一个读。...观察现象：如上图，当写端进行写入的时候，命令行会变成一个进程，向管道里写入，此时读端没有读取，所以写端正在阻塞。当读端进行读取后：此时左侧的字符串会到了右侧。...注意，tm_year 是从 1900 年开始算的，tm_mon 是从 0 开始的。 3. 可变参数的使用我们都见过可可变参数，但是还没有使用过，接下来介绍一下如何使用可变参数。

2231 0

Python `slots` 进阶指南：不止于节省内存，从原理到实践

但你是否思考过它背后的原理，以及在实际开发中的其他妙用？让我们一起深入探讨。...__dict__ 的开销在 Python 中，普通类的实例属性都存储在 __dict__ 字典中。...，Python 会：在类级别创建一个固定的内存布局，类似 C 语言中的结构体不再为实例创建 __dict__ 和 __weakref__ 属性（除非显式添加到 __slots__ 中）将属性直接存储在预分配的固定大小的数组中...__dict__)} bytes") except AttributeError as e: print(f"Slots对象没有__dict__属性：{e}")if __name__...：'OrderWithSlots' object has no attribute '__dict__'这里注意到，使用了 __slots__ 的类没有 __dict__ 属性，这是因为它的属性是直接存储在数组中的

750 0

Python3内置函数表.md

获取对象属性值 print(getattr(test,'x')) #1024 print(getattr(test,'e','实例化对象中没有 e 属性')) #有实例化对象中没有 e 属性 #18....setattr 设置对象属性值 setattr(test,e,'Hello world') print(getattr(test,'e','实例化对象中没有 e 属性')) #hello world...”strict”) Python3 中没有 decode 方法，但我们可以使用 bytes 对象的 decode() 方法来解码给定的 bytes 对象，这个 bytes 对象可以由 str.encode...size个字符，当未给定size或给定负值的时候，读取剩余的所有字符，然后作为字符串返回 ; (3) f.readline([size=-1]) #从文件中读取并返回一行（包括行结束符），如果有size...(5) f.write(str) 将字符串str写入文件 (6) f.seek(offset, from) #在文件中移动文件指针，从from（0代表文件起始位置，1代表当前位置，2代表文件末尾）偏移

9293 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭