腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
使用
dask
下载
、
处理
和
连
接到
TFRecords
的
最佳
方法
、
、
我需要
下载
图像,对它们运行一些图像
处理
,然后将它们打包到n
TFRecords
中(例如,每个TFRecord 100个图像)。对于python队列,我应该有d
下载
线程、
处理
图像
的
p工作进程,然后让w工作进程在图像可用时
使用
TFRecordWriter写入图像。我想在
dask
上尝试一下,这样我就有了这样
的
东西: urls = bag.from_sequence(images_urls) processed = urls.map(down
浏览 42
提问于2019-01-29
得票数 0
回答已采纳
2
回答
在创建`TFRecord`文件之前调整JPG
的
大小?
、
、
我正在构建一个与tf.slim一起
使用
的
模型,该模型将针对AVA数据集运行--对于大约256K
的
JPG图像,大小为32 to。在全分辨率图像
的
基础上,我创建了20个分片
的
TFRecord文件用于训练,每个文件
的
大小都是1.54 GB。在训练期间,我
的
预
处理
步骤将在提取随机
的
(224,224,3)裁剪之前将每个图像调整为(256,256,3)。如果我在创建TFRecord文件之前调整JPG图像
的
大小,文件大小将缩小到2
浏览 6
提问于2018-01-10
得票数 1
1
回答
Python任务TypeError:无法将“<geopandas.array.GeometryDtype object>”解释为数据类型
、
、
、
我正在尝试
使用
Dask
和
GeoPandas Geometry类型。我执行以下操作: sampel = dd.from_pandas(geo_data['geometry'], npartitions=5) 并获得一个如下所示
的
dask
.dataframe.core.Series或者仅仅是不可能在
dask
中
使用
Geometry类型 谢谢:)
浏览 54
提问于2020-12-11
得票数 0
回答已采纳
1
回答
你能用DataFrame作为
dask
.delayed中
的
查找表吗?
、
、
、
我们目前正在
dask
.delayed函数中这样做。这显然需要大量磁盘I/O。
Dask
延迟
最佳
实践()警告不要发送DataFrame延迟,不要调用延迟形式延迟,并告诉我们在分布式场景中避免全局状态。这些
最佳
实践让我相信,没有一种安全
的
方法
可以
使用
延迟函数中
的
DataFrame --我
的
理解是正确
的
吗?不幸
的
是,数据
的
规模
和
敏感性使得在这里很难共享作为一个
浏览 2
提问于2021-09-20
得票数 1
回答已采纳
1
回答
远程集群数据访问
的
最佳
实践:将客户端内存推送给工作人员,而不是将工作人员直接链
接到
数据存储
嗨,我是新来
的
达斯克,似乎找不到相关
的
例子,这个标题
的
主题。如有任何相关文件或帮助,将不胜感激。我
使用
的
示例是
使用
dask
_cloudprovider库对蔚蓝环境中
的
图像数据集进行预
处理
,我希望通过在一组机器上划分工作来提高
处理
速度。根据我所阅读
和
测试
的
内容,我可以(1)将数据加载到客户端计算机上
的
内存中,并将其推送给工作人员或 '''
浏览 1
提问于2021-02-02
得票数 0
回答已采纳
1
回答
是否有
dask
api来获取
dask
集群中的当前任务数
、
我遇到了一个问题,如果在短时间内提交了大量任务,
dask
调度程序会因内存错误而被终止(尽管工作程序仍在运行)。 如果可以获得集群上的当前任务数,那么很容易控制提交到集群
的
并发任务
的
数量。
浏览 3
提问于2017-09-17
得票数 1
1
回答
显示
dask
.compute(*something)调用
的
进度
、
、
、
我
使用
Dask
在我
的
代码上有以下结构: @
dask
.delayed services = data.service_id prices = data.price()
方法
时,我没有任何进度指示。Diagnostic UI没有“捕获”这个操作,我甚至不确定它是否正常运行(从我
的
处理
器
使用
情况来看,我认为它不是)。result =
dask
.compute(*output) 我正在遵
浏览 49
提问于2021-01-08
得票数 0
回答已采纳
1
回答
为
DASK
workers
使用
新
的
python环境
、
、
、
我在hpc上运行我
的
DASK
服务器,在那里我有运行
dask
所需
的
所有基本模块,并且我正在jupyter notebook中加载该模块。我想
使用
dask
和在
dask
的
基础环境中不可用
的
模块来运行一些
处理
任务。为此,我
使用
conda创建了我
的
自定义环境。在运行我
的
任务之前,有没有一种简单
的
方法
将这个新
的
condo环
浏览 3
提问于2020-06-21
得票数 2
1
回答
如何在非DRMAA批
处理
调度环境中
使用
Dask
?
我想
使用
dask
-distributed,对于支持
的
算法
和
一般任务图执行都是如此。不幸
的
是,我们
使用
的
批
处理
调度程序不支持DRMAA,所以我不能
使用
dask
-drmaa。我们为所有主机提供了NFS。有没有办法开始
使用
Dask
,或者我需要让批
处理
调度器支持DRMAA?
浏览 0
提问于2017-03-13
得票数 1
5
回答
将电子邮件传递给rails应用程序
的
最佳
方法
、
我正在考虑一个系统
的
架构,它应该
处理
传入
的
邮件,并将其传递给一个
处理
传入邮件
的
rails应用程序。我不知道做这种事最好
的
方法
是什么。rails应用程序
处理
邮件(一些分析,然后将它们扔到db中)我不是在找一个完整
的
解决方案。我只是对你
的
意见感兴趣。我想出了三种可能
的
选择: Rails通过Pop3
连
浏览 0
提问于2009-06-03
得票数 0
2
回答
Dask
:从TimeOut读取Parquet时
的
S3错误
、
、
、
、
我在EMR集群上
使用
Dask
-Yarn遇到了一些令人沮丧
的
问题。我试图从存储在S3中
的
分区拼花文件中读取有关S3行
的
数据。我将数据重新划分到800
DASK
工作人员,然后将数据保存到内存中。然后,当我
使用
下游函数操作这些数据时,我开始在整个过程中遇到四分之一
的
TimeOut错误,这是没有意义
的
,因为我以为我已经将这些数据保存到内存中了。有没有人能解决这些timeout问题。
浏览 17
提问于2022-02-20
得票数 1
1
回答
Dask
/Pandas是否支持基于依赖于其他行
的
复杂条件删除组中
的
行?
、
、
、
我正在
使用
Dask
处理
一堆csv格式
的
基于文本
的
记录,我正在学习
使用
它来解决内存问题太大
的
问题,并且我正在尝试过滤最符合复杂条件
的
组中
的
记录。到目前为止,我所确定
的
处理
此问题
的
最佳
方法
是基本上
使用
Dash将记录分组为比特大小
的
块,然后用Python编写适用
的
逻辑: def reduce_fra
浏览 6
提问于2019-07-25
得票数 0
2
回答
使用
Swift p2/OAuth2
的
OAuth2访问令牌
的
并行刷新请求
、
、
我正在
使用
通过OAuth2
连
接到
我
的
应用程序
的
后端,它工作得很好。并行请求可以从应用程序
的
不同部分触发。例如,当应用程序启动时,当前位置将被发送到服务器,并
下载
事件列表。 确保在第一个刷新令牌请求仍在运行时不发出第二个刷新令牌请求
的
最佳
方法
是什么?
浏览 2
提问于2016-01-11
得票数 15
1
回答
tf.data.Dataset中海量数据
的
最优数据流及
处理
方案
、
、
、
、
上下文:I.一个复杂
的
文本预
处理
并将tf.SequenceExamples导出到
tfrecords
(自定义标记化、词汇表创建、统计计算、规范化以及在完整数据集上以及每个单独示例中
的
更多内容II.一个tf.Dataset (
TFRecords
)管道,它在训练期间也会执行相当多
的
处理
(string_split转换为字符、表查找、存储、条件过滤等)。问题: 问题是,由于生产数据集快速增长(几兆字节),不可能为每一
浏览 9
提问于2017-12-27
得票数 5
1
回答
使用
Richfaces或jsTree在seam / JSF中实现树视图
、
、
、
、
我在EJB3 + JSF中
使用
seam,我想在UI中添加一个树视图组件。树视图必须允许对节点进行排序(最好是拖放),并且必须允许选择叶节点。我看过
的
方案如下: 如果我
使用
jsTree,用EJB3
连
接到
数据
的
最佳
方法
是什么?我应该
使用
RESTEasy、Java脚本远程
处理
或其他方式吗?
浏览 3
提问于2010-02-14
得票数 0
回答已采纳
1
回答
方法
,而不是在
Dask
的
多
处理
过程中调用一次调用
、
、
、
我正在尝试从google存储桶
下载
一个文件并解析它们。有数百万这样
的
文件,需要
下载
,分析
和
做一些操作(自然语言
处理
等)。我正在
使用
dask
的
并行
处理
来尝试下面的代码,它正在工作,但是它调用extract_skill两次,而不是对熊猫
的
数据文件中
的
每一行调用一次。请帮助我理解为什么要调用两次extract_skill
方法
。import pandas as pd import nump
浏览 5
提问于2019-09-19
得票数 1
1
回答
如何分配计算所需
的
昂贵资源?
、
、
、
在
使用
相对昂贵
的
资源或对象进行计算
的
dataset上分发任务
的
最佳
方法
是什么。pd.read_csv(...)result = df.apply(lambda x: foo.do(x)) # in
dask
我计划将它与
dask
_jobqueue
和
SGECluster一起
使用
。
浏览 1
提问于2018-10-03
得票数 1
回答已采纳
1
回答
如何
处理
格式化为GiB文件
的
大型>30个SAS7DBAT数据集?
、
、
、
、
我有这30个GiB SAS7BDAT文件,它们对应着一年
的
数据。当我尝试
使用
pd.read_sas()导入文件时,我会得到一个与内存相关
的
错误。在研究中,我听说有人提到
使用
Dask
,将文件分割成更小
的
块或SQL。这些答案听起来相当宽泛,而且由于我是新来
的
,我真的不知道从哪里开始。如果有人能和我分享一些细节,我会很感激
的
。谢谢。
浏览 6
提问于2021-12-05
得票数 1
2
回答
如何加快python函数中
的
“for”循环?
、
、
、
、
我想知道在这个函数中通过多
处理
/并行
处理
快速运行for循环(对于多个坐标: xs
和
ys)
的
最佳
方法
,
方法
是利用系统拥有的所有
处理
器、核心
和
RAM内存。 是否可以
使用
Dask
模块?
浏览 7
提问于2020-09-09
得票数 4
回答已采纳
1
回答
使用
dask
在网格上并行化函数广播
的
问题
、
、
理想情况下,这可以通过创建
dask
网格来完成,然后可以对其进行分块,然后
使用
多线程或多核
处理
将其映射到我们
的
成本函数。浏览一下
dask
文档,
dask
.array似乎没有包含任何合适
的
机制来实现这一点。但文档似乎表明,
dask
.bag仅用作对原始数据(以CSV、JSON等格式)进行初步
处理
的
模块。
Dask
.bag对象也有一个名为itertools.product()
的
方法</
浏览 10
提问于2019-12-24
得票数 0
回答已采纳
点击加载更多
相关
资讯
福汇APP的使用方法和下载路径有哪些?
Python数据预处理:使用Dask和Numba并行化加速
心血来潮系列之一——利用spark将数据集转化为Tensorflow的tfrecords格式
汇丰软件申请一种使用语义分割改进自然语言处理准确度的系统和方法专利,实现系统改进的精确度
Python入门:20个常用库和文档链接
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
云直播
活动推荐
运营活动
广告
关闭
领券