我正在使用Dask和Rapidsai在一个大型(6.9 on )数据集上运行xgboost模型。硬件是4x2080TI,每个都有11 GB内存。原始数据集有几十个经过一次热编码的目标列,因此我尝试运行一个循环,每次保留一个目标列,删除其余列,运行模型,然后重复。如果我尝试在集群/客户端分配之后使用循环来执行此操作:with LocalCUDAC
我想转换一个非常大的火花放电数据为熊猫,以便能够将它分成火车/测试熊猫框架的滑雪随机森林回归器。我在星火3.1.2的数据库里工作。 at java.lang.Thread.run(Thread.java:748)
根据reply ,这是因为toPandas实现,因为它试图将数据集写入一个ByteArrayOutputStream,该ByteArrayOutputStrea
我正在编写一个简单的脚本代码来在我的数据集上训练一个XGBoost预测器。- full garbage collections took 36% CPU time recently (threshold: 10%) )相关的通常垃圾收集器警告。我使用的数据集相当大,这就是我使用Dask的原因。然而,它似乎基本上是将整个数据集加载到内存中(我不知道这个假设是否正确,但似乎是因为读-块任务)。
代码非常直接,而且似乎没有