我正在做一个简单的项目,在apache spark中使用K-Means聚类,我做了一些预处理步骤,如标记化,停止单词删除,和hashingTF。这些是由spark own Tokenization()、StopWordRemover()和HasingTF()执行的。但我想在应用k均值聚类之前执行词干分析。我尝试过openNLP中的一些NLP库。但我不知道如何在spark DataFrame中实现它。有人能教我怎么做吗?
DataSet<Row> a = spark.read().format("com.memsql.spark.connector").option("query", "select * from a")Sring xstring = "...select all values of x from a and make comma separated string"
DataSet<Row> b = spark.read().format(
我从一个数据库加载了大约100万个对象到spark Dataframe,我执行SQL查询来匹配一些字段和来自spark streaming的实时数据。*WHERE Person.name='stream.name' AND Person.age='stream.age' AND ... etc
stream.xxx是我从spark现在,问题是,对于具有100万行和几列的数据帧,即使DF持久存储在内存中,上面的SQL查询也可能需要一些时间才能
我正在从事一个火花流项目,其中传入的流加入多个Hive表。所以我在spark中加载表并缓存它。over (partition by a , b , c, d order by date desc) row_num from test) tmp where tmp.row_num = 1")
该表有所以整个表会加载到内存中。这个表有数十亿的数据。这会产生FAILED_TO_UNCOMPRESS(5)错误。我是