可以通过以下步骤完成:
import pyarrow as pa
import pyarrow.parquet as pq
import pandas as pd
data = {'col1': [1, 2, 3],
'col2': [{'a': 1, 'b': 2}, {'a': 3, 'b': 4}, {'a': 5, 'b': 6}]}
df = pd.DataFrame(data)
table = pa.Table.from_pandas(df)
writer = pq.ParquetWriter('output.parquet', table.schema)
writer.write_table(table)
writer.close()
这样就将包含struct列的DataFrame写入了一个parquet文件中。在这个过程中,pyarrow提供了高效的数据转换和写入功能,可以处理复杂的数据类型,如struct列。
领取专属 10元无门槛券
手把手带您无忧上云