我在Hadoop中有一个表,其中包含70亿个字符串,这些字符串本身可以包含任何内容。我需要从包含字符串的列中删除每个名称。一个示例字符串是“John to to the park”,我需要将“John”从其中删除,理想情况下只需替换为“name”即可。 在'John and Mary to to market‘的情况下,输出将是'NAME and NAME to market’。 为了支持这一点,我有一个最频繁出现的20k名称的有序列表。 我有权访问Hue (Hive,Impala)和Zeppelin (Spark,Python和库)来执行此操作。 我已经在数据库中尝试过了,
我使用这样的pip安装了:
pip install dask
当我尝试执行import dask.dataframe as dd时,我会得到以下错误消息:
>>> import dask.dataframe as dd
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "/path/to/venv/lib/python2.7/site-packages/dask/__init__.py", line 5, in
我正在运行层次化Dirichlet进程,HDP使用Python中的gensim,但是由于我的语料库太大,它会抛出以下错误:
model = gensim.models.HdpModel(corpus, id2word=corpus.id2word, chunksize=50000)
File "/usr/cluster/contrib/Enthought/Canopy_64/User/lib/python2.7/site-packages/gensim/models/hdpmodel.py", line 210, in __init__
self.update(