首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

数据分析实战项目-蛋壳公寓投诉分析

押金退还流程先退到APP内,再提现,APP内显示14个工作日到账,截至到发稿前2020-11-10(2020-11-07退租并体现),一个月过去了一直未收到打款,客服一直未能联系上,不得已,走黑猫和12315...('data',wj) data =pd.read_csv(data_path) result = result.append(data) result.to_csv("data/合并后蛋壳投诉数据....csv",index=False,encoding="utf_8_sig") # 读取数据 data = pd.read_csv("data/合并后蛋壳投诉数据.csv") # 筛选到截止昨天的数据...,押金体现),活动返现(每个月返多少钱,我的除了刚开始两个月正常返现,后面也没按时打款,客服打不通后面就没怎么关注了),主要还有客服联系不上,保洁问题等!...并要求退款和赔偿 蛋壳公寓投诉问题 词云图 投诉问题,也就是投诉的标题, 这里也可以体现出来主要问题就是打款体现和活动返现,还有一部分保洁问题

44730

Spark Shell笔记

和Action(Shell) map(func):返回一个新的RDD,该RDD由每一个输入元素经过func函数转换后组成 scala> var rdd1638 = sc.parallelize(1 to...union(otherDataset):对源 RDD 和参数 RDD 求并集后返回一个 新的 RDD intersection(otherDataset):对源 RDD 和参数 RDD 求交集后返回一个...新的 RDD intersection(otherDataset):对源 RDD 和参数 RDD 求交集后返回一个 新的 RDD distinct([numTasks])):对源 RDD 进行去重后返回一个新的...join(otherDataset, [numTasks]):在类型为(K,V)和(K,W)的 RDD 上调用,返 回一个相同 key 对应的所有元素对在一起 的(K,(V,W))的 RDD cogroup...(otherDataset, [numTasks]):在类型为(K,V)和(K,W)的 RDD 上调用,返 回一个(K,(Iterable,Iterable))类型 的 RDD cartesian(otherDataset

24720
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    【强强联合】在Power BI 中使用Python(2)

    然后点击“转换-运行Python脚本”: ?...脚本编辑器中自带一句话: # 'dataset' 保留此脚本的输入数据 一行以“#”开头的语句,在Python的规范中表示注释,所以这句话并不会运行,它的意思是将你要进行修改的表用dataset来表示,...再比如,我们想提取数据的某列,比如上面这张表的“key2”列,我们可以点击运行Python脚本,并写入如下的代码: ?...['email']=email_list dataset['tele']=tele_list 正则表达式的使用,大家可以进行相关搜索和学习,网上资源还是很多的。...在IDE中运行无误后复制到powerquery的Python脚本编辑器中: ? 点击确定,返回结果: ? 后面两列就是我们想要的手机号和邮箱了。

    3.3K31

    【强强联合】在Power BI 中使用Python(1)

    在Python脚本窗口我们就可以将编写好的脚本粘贴并运行了。 如前所述,我们一般是先在第三方编辑器中编辑并运行代码无误之后再放到Power BI 中运行: ? 得到结果: ?...Power BI Desktop会自动获取Python代码中数据类型是DataFrame的变量数据。 我们将代码复制到Power BI Desktop的Python脚本编辑器中,并运行: ?...运行Python脚本后,Power BI会提取所有数据类型为DataFrame的变量出来,我们上面只有一个变量df,我们改下代码来看看,直接拷贝第一个变量,然后改下2个变量的名字: import pandas...as pd import numpy as np df1 = pd.DataFrame( { 'key1': list('aabba'), 'key2': [...Python和R语言在Power BI中的应用要求是一样的,数据传递的类型都要求是DataFrame,具体的使用场景和使用要求完全相同,会R的朋友,也可以按上述思路进行操作。

    3.1K42

    R基础

    输入输出调节 将写好的R脚本运行会在命令行中调用source()函数运行脚本,并将结果输出到命令行中。...如果想要将结果输出到文件中,可以使用sink("filename")函数,将输出重定向到其它地方,也可以通过调整参数来控制输出的格式和保存的方式,当将所有需要输出的结果保存完成后,可以在命令行中输入sink...()来重新将输出重定向到命令行中。...这种方法的弊端也很明显,如果DataFrame中的列名与其他Global Environment中object重名,那么会产生冲突,这时可以借助with和within函数。...另外一个与with函数类似的是within函数,该函数会在重构的环境运行程序,但是该函数会在程序执行结束后执行一次检查,将不与全局环境冲突的变量保存下来,换言之在within中是可以修改DataFrame

    86520

    python基础1| 索引与切片

    ][:3] Out[24]: 'My ' 切片 # 切片选择,从1到列表末尾In [13]: L[1:]Out[13]: ['are', 'a', 'nice', 'girl']# 负数索引,选取列表后两项...In [32]: L[-100:3]Out[32]: ['You', 'are', 'a']# 返回空In [33]: L[-1:3]Out[33]: []# 返回空In [41]: L[0:0]Out...0.20.x版本也标记为抛弃该函数,二义性 和 []区间,违背 “Explicit is better than implicit.” 原则。建议使用意义明确的 iloc和loc 函数。...当使用字符串时切片时是 []区间 ,一般是 [)区间 当在numpy.ndarry、list、tuple、pandas.Series、pandas.DataFrame 混合使用时,采用变量进行索引或者切割...我在工程中使用matlab的矩阵和python混合使用以上对象,出现最多就是shape不对应,index,columns 错误。

    1.4K20

    干货:可视化项目实战经验分享,轻松玩转Bokeh(建议收藏)

    我们将使用 5 分钟长度的时间间隔(bins),这意味着该功能将计算每五分钟延迟间隔的航班数量。生成数据后,我们将其放在 Pandas 的 dataframe 中,以将所有数据保存在一个对象中。...在这个目录中,我们将有一个数据子目录(称为 data),我们脚本的子目录( scripts)和一个 main.py 脚本将所有内容整合到一起。...当运行服务器时,我们告诉 Bokeh 服务于 bokeh_app 目录,它将自动搜索并运行 main.py 脚本。...在 Python 库和脚本导入之后,我们在Python __file__ 属性的帮助下读取必要的数据。...运行 Bokeh 服务器 在制作绘图所需的所有设置和代码编写完成之后,在本地运行 Bokeh 服务器非常简单。

    2.9K20

    干货推荐 | 掌握这几点,轻松玩转 Bokeh 可视化 (项目实战经验分享)

    我们将使用 5 分钟长度的时间间隔(bins),这意味着该功能将计算每五分钟延迟间隔的航班数量。 生成数据后,我们将其放在 Pandas 的 dataframe 中,以将所有数据保存在一个对象中。...CDS 是一个专门用于绘图的对象,包括数据以及多个方法和属性。 CDS 允许我们为图形添加注释和交互性,并且可以从pandas 的 dataframe 构建。...在这个目录中,我们将有一个数据子目录(称为 data),我们脚本的子目录( scripts)和一个 main.py 脚本将所有内容整合到一起。...当运行服务器时,我们告诉 Bokeh 服务于 bokeh_app 目录,它将自动搜索并运行 main.py 脚本。...运行 Bokeh 服务器 在制作绘图所需的所有设置和代码编写完成之后,在本地运行 Bokeh 服务器非常简单。

    2.3K40

    图解大数据 | 综合案例-使用spark分析新冠肺炎疫情数据

    : 获取数据集与代码 → ShowMeAI的官方GitHub https://github.com/ShowMeAI-Hub/awesome-AI-cheatsheets 运行代码段与学习 → 在线编程环境...对3)的结果DataFrame注册临时表,然后按死亡人数降序排列,并取前10个州。 (7)统计截止5.19日,美国确诊人数最少的十个州。...对3)的结果DataFrame注册临时表,然后按死亡人数升序排列,并取前10个州。 (9)统计截止5.19日,全美和各州的病死率。...病死率 = 死亡数/确诊数,对3)的结果DataFrame注册临时表,然后按公式计算。 我们下面基于Spark DataFrame和Spark sql进行统计分析。...获取数据集与代码 → ShowMeAI的官方GitHub https://github.com/ShowMeAI-Hub/awesome-AI-cheatsheets 运行代码段与学习 → 在线编程环境

    5.2K33

    掌握这几点,轻松玩转 Bokeh 可视化 (项目实战经验分享)

    我们将使用 5 分钟长度的时间间隔(bins),这意味着该功能将计算每五分钟延迟间隔的航班数量。 生成数据后,我们将其放在 Pandas 的 dataframe 中,以将所有数据保存在一个对象中。...在这个目录中,我们将有一个数据子目录(称为 data),我们脚本的子目录( scripts)和一个 main.py 脚本将所有内容整合到一起。...当运行服务器时,我们告诉 Bokeh 服务于 bokeh_app 目录,它将自动搜索并运行 main.py 脚本。...在 Python 库和脚本导入之后,我们在Python __file__ 属性的帮助下读取必要的数据。...运行 Bokeh 服务器 在制作绘图所需的所有设置和代码编写完成之后,在本地运行 Bokeh 服务器非常简单。

    2.2K30

    15个节省时间的Jupyter技巧

    只要它的内核处于活动状态,就可以用数据子集运行和测试脚本,而不用每次重启程序,这样可以加快我们开发和测试的速度。 但是因为它太简单了,所以我们经常会犯一些错误,浪费我们的时间和计算成本。...魔法命令很有用,可以直接嵌入到python代码中,并解决常见问题,例如列出当前目录中的所有文件或更改当前工作目录。 下面是一些常见的魔术命令: %run:在当前内核中运行Python脚本。...%load:从脚本中加载代码并在当前内核中运行。 %who:列出所有变量。 %timeit:记录一行代码的执行时间。 %debug:在异常处输入调试器。...默认情况下,panda的dataframe只能显示有限数量的行和列。...有几种方法可以扩展Jupyter Notebook中pandas DataFrame中显示的行和列的数量。

    2.1K40

    python利用threading处理 list数据

    需求:在从银行数据库中取出 几十万数据时,需要对 每行数据进行相关操作,通过pandas的dataframe发现数据处理过慢,于是 对数据进行 分段后 通过 线程进行处理; 如下给出 测试版代码,通过...list 分段模拟 pandas 的 dataframe ; 1 # -*- coding: utf-8 -*- 2 # (C) Guangcai Ren <renguangcai@jiaaocap.com...,)) 27 thread_list.append(thread) 28 # 在子线程中运行任务 29 thread.start() 30...注意点: 脚本中的  _result_list 在项目中 要 放在 函数中,不能直接放在 路由类中,否则会造成 多次请求 数据 污染; 定义线程任务时    thread = Thread(target...=work, args=(item, _list,))     代码中的 work函数 和 参数 要分开,否则 多线程无效 注意线程数不能过多

    3.9K20

    Python实训题目:学生成绩管理与分析系统

    登记成绩时,该学生没选这门课,按回车跳过即可,录入空值 导入 pandas 和初始化一个空列表 import pandas as pd # pandas的一些设置 打印DataFrame时格式好看一些...生成DataFrame对象 data = pd.DataFrame(info_list) # 该函数将被应用于整个DataFrame,可以转换为数字类型的列将被转换 # 而不能(...并将信息保存到Excel def show_scores(info_list): # 生成DataFrame对象 data = pd.DataFrame(info_list)...# 函数功能:对各门成绩进⾏分析 # 得到每个班级的各⻔成绩平均分,每门课程的总平均分,选修不同课程的⼈数等 def analysis_score(info_list): # 生成DataFrame...对象 data = pd.DataFrame(info_list) # 该函数将被应用于整个DataFrame,可以转换为数字类型的列将被转换 # 而不能(例如,它们包含非数字字符串或日期

    2.1K20

    爬取微博热搜榜并进行数据分析

    发现热度和排名所在的标签位置,查到所需要的内容的标签位置后,就可以开始编写爬虫程序了 三、网络爬虫程序设计 1.数据爬取与采集 import requests from bs4 import BeautifulSoup...i])) list.append([i+1,name[i],paiming[i]]) #用pandas对数据进行储存,并生成文件 df= pd.DataFrame(list,columns =...[i])) list.append([i+1,name[i],paiming[i]]) #用pandas对数据进行储存,并生成文件 df= pd.DataFrame(list,columns...热度和排名是成正相关的,数据的可视化与图表可以清晰明了的将数据的关系体现出来,让我们直观的了解热度和排名的变化。...解析和提取相关信息方面是非常厉害的,BeautifulSoup库的学习对以后的爬虫设计上很有帮助

    58610

    这几个方法颠覆你对Pandas缓慢的观念!

    我们知道pandas的两个主要数据结构:dataframe和series,我们对数据的一些操作都是基于这两个数据结构的。但在实际的使用中,我们可能很多时候会感觉运行一些数据结构的操作会异常的慢。...df看看转化后的效果是什么样的。...tables ▍结论 如果你觉得你的Pandas项目不够快速,灵活,简单和直观,请考虑重新考虑你使用该库的方式。...这里探讨的示例相当简单,但说明了Pandas功能的正确应用如何能够大大改进运行时和速度的代码可读性。...请注意这一点,比较不同方法的执行方式,并选择在项目环境中效果最佳的路线。 一旦建立了数据清理脚本,就可以通过使用HDFStore存储中间结果来避免重新处理。

    2.9K20

    还在抱怨pandas运行速度慢?这几个方法会颠覆你的看法

    我们知道pandas的两个主要数据结构:dataframe和series,我们对数据的一些操作都是基于这两个数据结构的。但在实际的使用中,我们可能很多时候会感觉运行一些数据结构的操作会异常的慢。...df看看转化后的效果是什么样的。...tables ▍结论 如果你觉得你的Pandas项目不够快速,灵活,简单和直观,请考虑重新考虑你使用该库的方式。...这里探讨的示例相当简单,但说明了Pandas功能的正确应用如何能够大大改进运行时和速度的代码可读性。...请注意这一点,比较不同方法的执行方式,并选择在项目环境中效果最佳的路线。 一旦建立了数据清理脚本,就可以通过使用HDFStore存储中间结果来避免重新处理。

    3.5K10
    领券