数据与大数据技术_数据科学与大数据技术_科学与大数据技术 - 腾讯云开发者社区

、

我有以下情况。我想把我的库达计划分成两个程序。第一台PC将进行大的计算，并收集它所需的数据。第二台PC一些简单的计算+数据查看。是否有标准的cuda命令通过网络发送数据。如果不是的话，最好的方法是什么呢？

浏览 3提问于2014-03-18得票数 2

回答已采纳

2回答

LINQ to SQL。有没有什么前景？

您能告诉我LINQ to SQL技术的前景吗？我可以在我的真实项目中使用它吗?我可以在什么样的项目中使用它(大的或仅简单的项目，小的数据库-大约30个表)？还是现在使用EF更好？那么，有谁能解释一下吗？谢谢。

浏览 0提问于2010-09-13得票数 0

2回答

Java:可以将GUI面板输出到图片中吗？

所以我有一个有点特别的图表。有点像点的XY图，但我的老板希望看起来像一堆盒子，而不是由线连接的点。我基本上用gridlayout和一大堆单元格做了一个图表，根据数据的不同，我会用黑色或白色着色。现在他有点想把它输出到一个图像文件。有没有办法将面板保存到图片中？他不仅希望显示数据，还希望将数据的可视表示保存到图像文件中。

浏览 0提问于2010-06-18得票数 1

回答已采纳

1回答

我对我必须写的这个SQL语句有问题。描述是写一个查询，返回所有银行的“保险”日期在2000-01-01或之后。将此查询添加到SQL文件中，并生成它的查询计划并将其添加到您的文件中。从历史课上回想起，在大萧条时期，联邦政府为银行存款投保。这意味着我们的数据集将显示出许多银行的保险数据为1934-01-01. 我对大萧条感到困惑。这是我正在使用的桌子表what.banks Column | Type | Modifiers ------------------+-----------------------+--------

浏览 4提问于2014-10-26得票数 0

1回答

通过PCA进行降维后不能生成原始数据

、、、、

我有一个非常大的数据集，我需要用于分类目的。但是当我尝试在MatLab中使用它时，我会得到和out of memory错误。为了解决这个问题，我试着研究PCA，因为这是针对这些问题的预期解决方案。因此，为了更好地理解PCA，并确保我可以将PCA产生的结果与原始数据互换使用，我想从PCA分数和系数中复制原始数据集。我使用以下代码获取PCA分数和系数，然后将其更改为原始数据集。 %all_feats is the original dataset of size 128 x 19882 [n m] = size(double(all_feats)); Amean = mean(double(a

浏览 0提问于2014-10-03得票数 2

回答已采纳

2回答

如何锁定mysql数据库并将等待中的作业出队

、、、

我想知道是否有人知道如何锁定数据库，然后将等待的作业出队。因此，我在数据库中有一个哈希表，我将数据存储在数据库中，其中多个用户同时发送编辑数据的请求，但数据需要在所有用户之间持久存在，并且一次只有一个用户可以访问/编辑它。谢谢一大堆=)

浏览 0提问于2011-05-17得票数 0

回答已采纳

4回答

拉取facebook、twitter、tumblr等墙壁/仪表板数据

、、、、

我觉得这必须在其他地方问，但我找不到正确的搜索词来找到答案。如果这是副本，请在其他地方指出正确的答案。像Facebook，Twitter，Tumblr这样的服务，我相信还有一大堆其他的服务可以让你关注其他用户。然后，他们的帖子会出现在墙上或仪表板上。我想知道，有了这么大的数据集，这些服务怎么能这么快地拉取帖子。我假设他们不是在使用SQL服务器，也不是在做以下事情： SELECT * FROM `posts` WHERE `poster_id` IN ( super long list of users being followed ) ORDER BY `date` LIMIT 10; 因为

浏览 2提问于2013-12-29得票数 0

1回答

解决-如何决定您的网站或应用程序的最佳架构？

我是建筑学和解决方案的新手。我想知道如何在这个领域开始工作。假设我有一个流量很大的网站，有200个表单，有一个200 to的数据库，我将如何决定创建这个网站的最佳架构和技术？同样的问题也适用于一个非常大的应用程序。一个人如何做出这些决定并说服用户他们应该使用的最好的技术？请让我知道你的想法，如何开始，如果有任何文章我可以阅读和更多。谢谢你的时间和帮助。

浏览 1提问于2011-01-21得票数 1

1回答

对于多类(非二进制)文本分类，我应该选择哪种ML方法(从SparkML)？

、、

浏览 0提问于2019-10-13得票数 0

2回答

如何对大型数据集进行聚类

、、

我有一个非常大的文档数据集(5亿)，并希望根据其内容对所有文档进行聚类。什么是最好的方法来解决这个问题？我尝试使用k-方法，但它似乎不合适，因为它需要所有的文档同时进行计算。是否有适合较大数据集的聚类算法？参考:我正在使用Elasticsearch来存储我的数据。

浏览 1提问于2015-05-12得票数 2

回答已采纳

2回答

能提供腾讯区块链TBaas技术上链对接的流程图吗？

你好，本公司打算把项目数据上腾讯区块链上，有没有整个上链流程图之类的，大格局的展示整个上链逻辑。因为现在基本都是看接口，有个大体逻辑图会好很多。各位能提供一下吗？万分感谢

浏览 935提问于2019-12-03

2回答

与使用WebSockets发送大型消息相比，发送大量消息是否会带来很大的开销？

、、

我知道，在HTML和发送数据时，由于与标题、内容、标签、过期日期、cookie等相关的开销，所以鼓励不频繁地发送大量数据。为了获得更好的用户体验和更少的延迟，最好是不频繁地发送大消息，而不是频繁地进行小更新。然而，WebSockets是这样的吗？在我的网页上，我现在经常发送大量像素数据，这样客户就不会有太多的波动。然而，如果我不经常发送更新，会更好吗？我想我的问题归结为：“使用WebSockets，不频繁地发送大消息是否比频繁发送小消息更有效？”我想我听说这项技术消除了与发送和接收消息相关的大部分开销，因为它保持了一个恒定的连接，并且是全双工的，等等。感谢您的阅读。编辑:帮助计算机

浏览 10提问于2012-06-07得票数 7

回答已采纳

2回答

如果事务日志备份失败，它还会清除日志文件吗？

、、

我负责监视的数据库之一被设置为完全恢复模式，但没有备份事务日志的计划。自然，这导致日志文件增长到相当大的大小。我知道，在完全恢复模式下运行时，您希望执行事务日志备份以清除日志文件，但我担心任何备份失败。我只想确认如果备份失败，我的日志文件是否会被清除。

浏览 0提问于2009-06-01得票数 0

回答已采纳

1回答

为什么标签不在孤立点检测算法中使用？

、

我从sklearn：https://scikit-learn.org/stable/modules/outlier_detection.html上读到这篇文章虽然这些算法对于异常值的检测非常有用，但我惊讶地发现它们没有使用标签来查找异常值。正常吗？使用它们没有用吗？孤立点检测也称为无监督异常检测。现有的库是否提供有监督的孤立点检测算法？更多解释：如何知道数据点是否真的是一个没有标签的离群点？假设我们想预测一套房子的价格。一座有许多好特色的房子(大面积，大游泳池，大花园，)如果价格较低，则可能是异常值；如果价格高于平均水平，则作为正常点。

浏览 0提问于2019-11-14得票数 2

1回答

为什么LuaJIT这么好？

、、

编辑:不幸的是，在下面的链接中，LuaJIT被排除在比较之外。这种编程语言的表明，LuaJIT比普通的Lua实现有十倍以上的改进。为什么变化这么大？Lua有没有什么特别的东西让它从JIT编译中受益良多？PyPy是动态类型的，也可以编译成字节码，那么为什么Python (我相信现在有了JIT )没有表现出如此大的性能提升呢？

浏览 24提问于2011-02-06得票数 57

回答已采纳

1回答

使用Toad for Oracle的数据库快照

、、

我有一个相当大的数据库(大约1100个表)。我感兴趣的是拍摄数据库的快照，在应用程序中做一些工作，拍摄另一个快照，并比较这两个表，以找出哪些表被触及。我在用TOAD for Oracle。这样的事情是可能的吗，还是有更好的方法呢？

浏览 0提问于2016-12-15得票数 0

1回答

箭头文件大小是否与csv相同？

、、

我正在尝试将数据帧保存为.arrow格式，主要是为了获得比CSV更好的大小，以便将该文件用于vega-lite 我使用的是python <code>A0</code> 我原本期望箭头文件小于csv，现在箭头稍微大了一点我尝试使用拼图导出，结果与预期一致原始csv :4.4MB箭头:4.9MB拼花:1.6MB PowerBI (仅供参考)：1.7MB

浏览 13提问于2019-03-30得票数 2

回答已采纳

7回答

音视频在物联网中发挥了多大的作用？

随着最近物联网的大热，人们对物联网的关注度也越来越高。其中负责采集数据的摄像头、声音传感器等产生的数据也基本上都为音视频文件。那么，音视频技术在物联网中发挥了多大的作用？目前又有哪些应用呢？

浏览 1362提问于2018-04-12

1回答

星火中的联接表是否与较小表的选定列相乘？

、、

我有两张桌子在火花中： T1 |--x1 |--x2 T2 |--z1 |--z2 T1比T2大得多列z2中的值是--非常大的 T1和T2之间有许多关系(通过x2和z1列)。我执行以下查询： select T1.x1, T2.z2 from T1 join T2 on T1.x2 = T2.z1 在结果数据集中，来自T2.z2的相同值将被乘以许多T1.x1值。因为这个值很重--我关心的是数据是否实际上是重复的，还是内部优化只维护引用？

浏览 0提问于2018-04-08得票数 1

1回答

为什么选择BigQuery而不是其他关系数据库管理系统应用程序？

我正在经历这种新技术的使用。然而，我有一个疑问。为什么要选择BigQuery而不是其他应用程序，比如Teradata？大查询相对于这些查询有什么优势？具体来说，我想知道，在数据仓库环境中，为什么和何时应该使用BigQuery？这对我的生意有什么好处？请尽快让我知道这些，因为我们可能会接受这一新技术。你好，丽娅

浏览 2提问于2012-07-02得票数 1

1回答

简单的开源CMS与hiphop php一起工作？

、、

Facebook的Hiphop不喜欢eval()或create_function()。有没有好的开源php-CMS可以开箱即用呢？据我所知，Drupal是不兼容的。如果可能，这些cms是否支持多站点(一个代码库托管具有不同db连接字符串的多个站点)。我认为对亚马逊EC2来说，hiphop是一个很好的选择，它可以节省一大笔钱。先谢谢你，汤姆

浏览 1提问于2011-04-06得票数 0

1回答

有没有一种正确的方法来衡量迭代算法的加速比？

、

我计划提高Hadoop MapReduce版本的雅可比方法算法的速度，以处理非常大的数据(20.000 ++方程)。据我所知，加速比指的是并行算法比相应的顺序算法快多少。我已经在hadoop mapreduce和顺序版本中实现了Jacobi方法。我目前的加速技术是比较mapreduce和顺序版本，包括重复执行mapreduce和顺序版本30次，执行1次迭代。我想知道有没有最好的/正确的方法来做这件事？非常感谢，

浏览 3提问于2013-10-26得票数 0

1回答

Azure web角色runnig Java返回500

、、、、

我是Java/Apache tomcat的新手我需要使用java在蔚蓝云服务中构建一个web服务。web服务运行在apache 7、JDK1.7上，并在蔚蓝vm上运行一个mongo-db。该服务被用作存储在mongodb中的一个稍微复杂的键值数据的“代理”，并且应该在不久的将来大量请求它。它在开发中运行良好，当开始在生产中使用它时购买(一天~100 K请求)--过了一段时间，它开始返回500 (502和503)。重新启动云服务服务器正在修复此问题，但一两天后再次发生。它似乎并不是与大负载相关的东西，因为CPU的统计数据很好(不超过70%，大部分是30%)。这个问题与mongodb无关

浏览 2提问于2014-02-06得票数 0

回答已采纳

1回答

在作业中读取bigtable上的大型查询表花费的时间太长

、、、

我有一个数据流作业，它从bigquery表(在大表之上创建)读取。数据流作业是使用java中的自定义模板创建的。我需要处理bigquery的大约5亿条记录。我面临的问题甚至是读取100万条记录，大查询读取需要26分钟，数据流工作需要36分钟。在大查询中读取太慢。任何关于如何提高阅读性能的建议。

浏览 10提问于2022-12-02得票数 1

2回答

扩展算法所需的概念和工具

、、、、

我想开始思考如何扩展我为数据分析编写的算法，以便它们可以应用于任意大的数据集。我想知道实现这一点的相关概念(线程、并发、不可变数据结构、递归)和工具(Hadoop/MapReduce、Terracota和Eucalyptus)是什么，以及这些概念和工具是如何相互关联的。我对R、Python和bash脚本以及C和Fortran编程有基本的了解，尽管我也熟悉一些基本的函数式编程概念。我是否需要改变我的编程方式，使用不同的语言(Clojure、Haskell等)，或者只是(或者不是那么简单！)采用像R/Hadoop (HRIPE)这样的东西...或者为Python编写包装器以启用多线程或Hadoop

浏览 2提问于2010-03-10得票数 5

回答已采纳

1回答

存储运动变化以减少内存的最佳方法

我把jpeg和jpeg在一个恒定的“视频流”中进行比较。我正在使用EMGU/OpenCV来比较字节级别上的每个像素。每个图像有3个通道(RGB)。我听说，通常的做法是只存储帧间变化的像素，以节省内存空间。但是，例如，如果我说每个像素都发生了变化(请注意，我正在使用一个夸张的例子来说明我的观点，我通常会放弃这么大的更改)，那么所保存的字节比原来的jpeg大3倍。如何有效地存储这样的运动变化？谢谢

浏览 7提问于2013-10-20得票数 1

回答已采纳

2回答

针对移动应用的Restful Web服务--什么语言、框架、基础结构？

、、、

我是IOS开发的新手，我想知道每个人都在使用哪种语言/框架来为高流量、可扩展的IOS应用程序后端创建very风格的web服务。该解决方案需要: 1.安全登录2. Restful web服务(JSON) 3.高流量4.文件上传/下载5.大容量数据库的快速搜索结果我来自.NET和微软的背景。我听说人们正在使用PHP，Java，Python，RoR来开发IOS IOS服务。我知道每种语言都有优缺点，只是想知道在当今的趋势中哪种语言更受欢迎。对于数据库，对于可伸缩的大容量数据库，NoSQL数据库是比关系数据库更好的选择吗？我正在检查MongoDB。如果我问错了问题，很抱歉。我正在研究这个新项目

浏览 2提问于2012-05-28得票数 4

回答已采纳

5回答

JPA和JDO之间的区别？

、

想在谷歌应用引擎.I上开发我的项目，想使用谷歌大表作为数据库。对于数据库，我有两个选项: JPA和JDO。你们能给我推荐一下吗？这两个对我来说都是新的，我需要学习它们。因此，我将在您的回复后集中讨论其中一个。

浏览 0提问于2010-02-12得票数 20

回答已采纳

3回答

确定表是否具有连续的主ID自动增量值

、、

有没有一种方法可以确定一个表，一个非常大的表，是否有连续/连续的自动增量主键ID？有没有SQL查询的方法来确定这一点？假设有人从一个非常大的表中随机删除了一些行。我需要知道这件事已经发生了。 e.g. table XYZ id 1 2 3 4 table abc 1 2 4 <--- non contiguous, skipped 3 5 对数据完整性很好奇。我想要一种SQL查询方法，以便使事情变得简单，而不必编写PHP脚本来对数据库运行。

浏览 3提问于2011-08-26得票数 7

回答已采纳

2回答

getJSON和ajax数据限制？

、、

我使用下面的函数来加载数据。由于某些原因，它不适用于非常大的数据集(100M)，但它适用于我的玩具数据集。是否存在某种大小限制或参数，使我能够加载这些大型数据集？： function loadData(nameOfFile){ $(function(){ $.getJSON("//www.yadayada" + nameOfFile + ".json",function(data){ //load the data into new objects }).error(function()

浏览 1提问于2013-06-21得票数 0

1回答

Android应用程序通过不可靠的网络处理写请求

、、

我正在设计一个用于数据收集的Android应用程序，该应用程序预计将在网络覆盖范围不佳的户外地区使用，因此客户端到服务器消息传递的健壮性非常重要。如果用户试图提交什么，请求失败或没有网络，应用程序需要记住这一点，然后再试一次，无论是按需还是恢复连接。我们正在考虑将Firebase用于数据模型，但也希望评估一种更传统的服务器/DB/API解决方案。Firebase的一大优势是它们通过client提供“脱机”支持：您的Firebase应用程序将保持响应，无论网络延迟或互联网连接。在将任何数据写入服务器之前，所有对Firebase数据库的写入都将立即触发本地事件。一旦连接重新建立，客户端将收到

浏览 4提问于2016-01-29得票数 0

2回答

一个很小的数字在处理过程中是如何表现的？

、、、

嗯，我正在处理一个大的数据集，经过一些计算，我得到了像4.4E-5这样的特性的值。我在某个地方读到了这些值，这些值意味着0.000044，即乘以5。所以我的问题是，每当我想使用它们进行进一步的处理时，这些值的行为是否与浮点数相同，还是需要其他数据类型？

浏览 3提问于2013-12-15得票数 1

回答已采纳

4回答

“大数据”的定义是什么？

、、

有一个吗？我能找到的所有定义都描述了数据的大小、复杂性/多样性或速度。维基百科的定义是我找到的唯一一个有实际数字的大数据量是一个不断变化的目标，截至2012年，单个数据集中的数据量从几十兆字节到许多千兆字节不等。然而，这似乎与下一段提到的MIKE2.0定义相矛盾，后者指出“大”数据可能很小，而一架飞机上只产生3GB数据的10万个传感器可以被认为是大的。 IBM尽管说：大数据不仅仅是一个大小问题。强调了它们的定义的规模。奥莱利强调 "volume, velocity and variety"也是。虽然解释得很好，而且更深入，但这个定义似乎是其他定义的重头--或者反之

浏览 0提问于2012-06-07得票数 24

回答已采纳

1回答

改进表识别

、

我尝试使用表单识别器分析发票，标签tool.The发票包含字段和表数据。表中的所有数据都由ocr进程识别并可读。不幸的是，这些表并不总是被认为是表。有时，只有一半的数据被识别为表，在某些情况下，没有任何标记为表。获取表数据的最佳方法是什么？说：“表数据应该被自动检测，并在最终的输出JSON文件中可用。但是，如果模型无法检测到所有表数据，您也可以手动标记这些字段。用不同的标签标记表中的每个单元格。如果表单中的表有不同的行数，请确保至少用尽可能大的表标记一个表单。” 这是不切实际的，而且会使几百个字段以上的现场计数器麻木。是否有改进表识别的方法，可能通过修改labels.json和定义

浏览 4提问于2020-07-08得票数 1

1回答

是否有更有时间效率的方法来填充字典？

、、

我有两个整数A和B的列表，长度相同。列表A是无序的列表整数，而列表B是具有重复项的整数的有序列表(按升序排列)。 A和B是被创造的，这样就没有一对情侣爱，比是相同的。我的目标是创建一个字典，其中包含A的键值，B的值与Ai成对的匹配，即， myDict = {} for i in A: myDict[i] = [] for i in range(len(A)): targetA = A[i] targetB = B[i] if targetA in myDict.keys(): myDict[targetA].append(targetB)

浏览 2提问于2015-10-08得票数 2

回答已采纳

1回答

无法使用javascript下载大型数据

、、、

我在javascript中有一个JSON对象形式的大数据。我使用JSON.stringify()将其转换为字符串。现在，我的用例是将文本文件中的这个大字符串提供给用户。为此，我编写了下面的代码。 HTML代码 <button id='text_feed' type="submit">Generate ION Feed</button> <a href="data:attachment/txt" id="textLink" download="feed.txt"><

浏览 6提问于2015-05-11得票数 11

1回答

减少与毫升相关的码头形象的最佳做法是什么？

、、、

我目前正在构建一个可用于部署深度学习应用程序的docker映像。图像相当大，大小约为6GB。由于部署时间受docker容器大小的影响，我想知道是否有一些最佳做法可以减少ml相关应用程序的映像大小。

浏览 2提问于2022-06-30得票数 0

回答已采纳

1回答

如何在PostgreSQL中将大文本保存到表中(使用Java)

、、、

我有一个很大的文本，我想用PostgreSQL将它们保存到B表的A列中。"A“列的类型是OID，我认为如果使用OID数据类型，我可以保存大文本。确实是这样吗？没有OID，有没有可以保存大文本的数据类型？我也会在我的应用程序中显示这个大文本。我该怎么办？给我一些建议。感谢你的无私，

浏览 303提问于2016-05-21得票数 0

回答已采纳

1回答

不平衡或小数据集的BERT分类

、

我有一个大语料库，没有标签。我训练这个语料库是为了得到我的BERT记号器。然后，我想构建一个BertModel来对标记的数据集进行二进制分类。然而，这个数据集是高度不平衡的，1: 99。所以我的问题是： BertModel在不平衡数据集上表现良好吗？ BertModel在小数据集上表现良好吗？(小到不到500个数据点，我敢打赌它不是.)

浏览 2提问于2021-07-25得票数 2

回答已采纳

3回答

GWT可以这样做吗？如果是这样，我们可以使用的最好的后端java技术是什么？

、、、

我使用微软技术开发web应用程序已经有很长时间了，但现在我被要求在一个Java Web项目上构建一个非常大的应用程序。出于某种原因，我被迫使用GWT作为前端；我读到了一些关于它的评论，有些人说这不是大型/企业应用程序的最佳选择(在这种情况下，它几乎和ERP一样复杂)。另一个要求是:允许连接到多个数据库，使用快速开发技术，并具有低性能成本(用户不喜欢等待页面加载)…… 所以问题是：- GWT是最佳选择吗？-如果是，我们可以使用的最好的后端(Java技术)是什么？我读到过它可以是Groovy，Spring Roo或者JSF。-我应该使用Hibernate，还是创建另一个轻量级的选项？提前感谢

浏览 11提问于2011-01-04得票数 4

1回答

ASP.NET数据访问？

、、、

我正处于ASP.NET表单应用程序的前期开发阶段(目前还没有考虑到)。我只需要创建和访问一个数据库。在这一点上，这些是我发现的选择是可用的。 ADO.NET数据集-- LINQ实体框架:代码优先、模型优先、数据库优先我只是有点困惑。我读过关于这个主题的其他帖子，虽然它们提供了一些澄清，但它们并没有真正帮助我。最简单的最佳选择是什么？我对一大堆的选择感到沮丧，现在我正处于“撞墙”的舞台上。

浏览 4提问于2014-05-20得票数 0

回答已采纳

1回答

windows服务作为代码和and服务之间的层

、、

这可能是一个简单的问题，但是可以使用windows服务作为我的代码和and服务之间的一层吗？我有一个相当大的项目和一个网络服务。我需要一个中间层，而不是直接调用WS。(有理由解释为什么这是一个好主意……) 由于windows服务已准备就绪，我是否可以调用该服务，并让相同服务调用get服务？

浏览 0提问于2013-03-13得票数 0

回答已采纳

1回答

针对instagram等应用程序的数据库实施

、、

我想知道像snapchat和instagram这样的应用程序是如何在数据库中存储图片和用户记录的。假设我有一个用户表，他们如何维护每个用户的关注者列表？他们会在用户表中存储每个条目的关注者列表，还是为关注事件创建一个单独的表，并在每次有人关注某人时创建一个条目。此外，为了存储图片，我猜他们会将图片转储到大容量存储服务器空间中，并将URL存储在表中。有没有更好的方法来实现这个功能？如果不是，他们会选择哪种大容量存储服务器？专用服务器还是共享服务器？谢谢。

浏览 2提问于2014-06-09得票数 16

回答已采纳

3回答

SQLite与HSQLDB

、

SQLite和HSQLDB的主要区别是什么？有很多应用程序同时使用这两种应用程序，但我不认为有什么大的区别。

浏览 13提问于2009-04-15得票数 37

回答已采纳

3回答

SQL Server - ETL方法

、、

我们每天都会得到需要加载到数据库中的文件。这些文件将在一个单独的服务器上传递，而不是数据库。从性能角度看，这两种方法中哪一种更适合ETL？将文件从传递服务器传输到数据库服务器。执行大容量加载.从传递服务器打开DB连接并加载编辑以添加:服务器都在同一个网络上。

浏览 0提问于2011-03-15得票数 0

回答已采纳

2回答

为高CPU/内存工作负载优化Spring后端

、、、、

我正在运行一个Spring应用程序，它充当前端Javascript应用程序的后端。前端作为静态资源提供给客户端，后端为来自它的API请求提供服务。该应用程序最初设计为在前提下运行，但应该以允许移植到云本机解决方案的方式构建。我希望后端做一些繁重的ETL工作，这将是沉重的内存和CPU方面。同时，它不需要扩展来处理许多并发请求--它只需要为启动和管理作业的请求提供服务，与之接口的单个用户将调用这些请求。对于这种类型的部署，我可以调整哪些参数来进行微调？当前的想法：将server.tomcat.max-threads减少到一位数，以最小化请求线程池的占用空间，因为我不希望并发处理多个线程

浏览 8提问于2021-08-10得票数 1

回答已采纳

1回答

IP片段能被覆盖吗？

假设我想使用IP发送非常大的数据块，并且数据被分割成100个IP数据报。当我发送前90份数据报时，我意识到我想在第三份数据报的有效载荷中调整几个比特。在发送最后10份数据报之前，是否可以对第三份数据报进行“修改”，从而避免重新发送最初的90份数据报？我问这个问题的部分原因是，这个区域合作框架说(参见第1页)：一个新片段可能与现有片段重叠

浏览 0提问于2012-10-29得票数 1

回答已采纳

2回答

删除大文本文件中的所有重复项

、、、、

我真的被这个问题难住了，结果我有一段时间没有工作了。我处理的是非常大的数据块。我每周都会得到大约200 of的.txt数据。数据的范围最大可达5亿行。其中很多都是重复的。我猜只有20 is是独一无二的。我已经制作了几个自定义程序，包括哈希删除重复，外部删除重复，但似乎没有一个工作。最新的一个是使用临时数据库，但花了几天时间删除数据。所有这些程序的问题是，它们在某个时间点后崩溃，在这些程序上花费了一大笔钱后，我想我应该上网看看是否有人可以帮助我。我知道这里已经回答过这个问题了，我花了3个小时在这里阅读了大约50个线程，但似乎没有一个像我一样有同样的问题，也就是巨大的数据集。有人能给我推荐些什

浏览 2提问于2014-03-25得票数 4

2回答

大型3D场景流

、、、

我正在开发一个3D引擎，适用于非常大的场景显示。除了渲染本身(锥体剔除、遮挡剔除等)之外，我想知道场景管理的最佳解决方案是什么。数据是以3D网格的巨大列表形式给出的，它们之间没有关系，所以我不能生成门户，我认为…… 主要目标是能够在低RAM (500MB-1 1GB)的系统上运行此引擎，并且加载到其中的场景非常大，可以包含数百万个三角形，这会导致非常密集的内存使用。实际上，我现在正在使用一个松散的八叉树，在加载时构建，它在中小型场景中工作得很好，但许多场景太大了，无法完全放入内存中，所以我的问题来了：你将如何处理动态加载和卸载块的场景(理想情况下是无缝的)，以及你将基于什么来确定是否应该加

浏览 5提问于2014-09-13得票数 4

3回答