我正在做一个每天处理大数据(大小~3TB)的项目。数据管道的第一阶段使用名为freebcp的工具将数据从machine复制到主机(Linux)。有关freebcp的更多信息是这里。
使用linux服务器上的这个工具,我们在server上运行了一组存储过程,并将数据导出并进行批量传输。最近我观察到,如果数据很大(~200 am ),数据传输会在某个时候停止。我运行了几个命令(sp_who2和dbcc inputbuffer(spid))来监视server上存储过程的执行。我们观察这个过程所使用的CPU时间和磁盘IO。如果这种情况在几分钟内没有改变,我们假设作业已经停止,并手动关闭这些存储过程以继续我们的数据处理任务。
数据复制延迟的可能原因是什么?
是否有更好的方法将大量数据从SQL服务器复制到linux主机?可能是免费be的替代品。之后,我们将这些数据加载到hadoop文件系统中,运行映射还原任务。
发布于 2016-02-11 13:39:29
如果对BCP源的SELECT查询未被阻止,则可能导致延迟的原因是客户端存在使用结果的问题。
您考虑过免费的用于Linux的Server驱动程序吗?这包括一个BCP命令行实用程序。
https://stackoverflow.com/questions/35340260
复制相似问题