我一直在做一个处理大型语料库的功能。在里面我用的是多列包。在50到100 000份文件上一切正常。我对1M文档进行了测试,并收到了上述错误。
然而,当我回到我以前工作过的语料库大小时,我仍然会得到同样的错误。我甚至试着降低到1k个文件。当我在控制台中调用函数时,一旦我点击enter,就会产生错误。
虽然我有15个内核,但我测试了这一点,测试的低到只有两个核心-相同的问题。
我还尝试重新启动会话并使用rm(list = ls())清除环境。
代码:
clean_corpus <- function(corpus, n = 1000) { # n is length of each peic
我有一个运行MySQL5.5的多AZ AWS RDS实例
我已经注意到,尽管DB连接很低(有时甚至为零),但我的写入操作/秒仍在相当快地增长--请参阅图表中的Avg growing /秒在过去12个月和最后2周中的使用情况,以及Avg DB连接在过去2周中的情况:
📷
📷
📷
我知道总体上写操作系统/秒的水平很低,但是我预计在接下来的几个月里会有更多的文件(比如100倍),并且希望确保我能解决所有的问题。
我在试着弄清楚是什么导致了这些写操作。我尝试连接到RDS实例并执行:
show full process list
这表明:
+--------+----------+-----------
我有一个AWS (MySQL 5.6.35) db.m3.medium,它在过去两周试图修改表的结构时给了我一个随机错误:
#1041 - Out of memory; check if mysqld or some other process uses all available memory; if not, you may have to use 'ulimit' to allow mysqld to use more memory or you can add more swap space
我从未在内存少得多的小得多的实例上遇到过此错误。应该注意的是,在这个实例上启用
我有一个有1400万行的表,我正在尝试对这个表执行全文搜索。这个查询的执行速度非常慢,一个简单的二进制AND查询大约需要9秒。同样的东西会立即在我的私有集群上执行。该表的大小约为3.1 GB,包含1400万行。有人能解释一下RDS实例的这种行为吗?
SELECT count(*)
FROM table_name WHERE id=97
AND match(body) against ('+data +big' IN BOOLEAN MODE)