首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >从零搭建微信公众号数据分析体系:看板预搭建

从零搭建微信公众号数据分析体系:看板预搭建

作者头像
做数据的二号姬
发布2023-09-19 19:25:56
发布2023-09-19 19:25:56
4670
举报

19

2023-09

从零搭建微信公众号数据分析体系:看板预搭建

终于,数据准备好了,是时候开始搭建一个版本的看板瞧瞧了~

LEARN MORE

图片由海艺AI绘制

开始看板制作

终于,数据规划设计完毕了,数据也入库了,接下来就是看板搭建和反复调优了。

也可以点击合集的标签去查看本系列之前的内容(P.S.该系列预计每周二更新)

————————

其实上周的这个方案还有很多种做法,关于一题多解,先把这个完成的流程做完再开新的支线吧~

————————

这一点可能和一般大家日常做看板的思路是不完全一样的。一般来说在企业中,我们做看板大概率是这样两种场景:

但是我这个项目的思路不一样,因为自己就是需求方,没有人给我变更需求,也没有人帮我做设计什么的。所以这会是一个纯粹的分析师的思维:

所以搭建看板这里可能会有比较多的章节来做探讨和改动,我尽量把一些思路和处理方案,连同技术实现一起放在这里。

虽然这种方案制作的看板会有一个比较大的问题,那就是除了我本人以外,其他人比较难看出看板里的玄机。不过我在做技术线是近期的事情,之前一直在做业务线,只不过是业务线的数据分析师中比较少有的技术能力比较强罢了。或许大家看到这个完整的流程之后,能够理解为什么我认为做业务线还是做技术线其实都不是那么有前途,双修才是王道了。

技术操作走起

首先,双击启动power BI(后续如果大家有兴趣的话我可以再做一个其他BI工具版本的)。

对所有的BI工具来说,第一步就是获取数据。

因为这个项目用得是sql server,所以,这里直接选择SQL server 填写信息就可以了。

不过对于这个界面,有三个点需要稍微要提一下的是:

①服务器这个地方如果端口号不是默认的端口号的话,需要用英文的冒号进行说明,比如127.0.0:5432这样的格式;

②导入和directquery的区别可以简单理解为,导入模式就是顾名思义直接把数据导入了power bi中,数据更新频次和你导入数据的刷新频次有关联,这种模式下数据处理性能的瓶颈在于power bi server。但是DirectQuery模式下,数据真实的处理方在于数据库,Power BI只是提供了前端展示而已,也就是说,数据的更新频次取决于数据库中的数据的刷新频率,处理性能的瓶颈也在于数据库本身的瓶颈。

③可以在高级选项这里输入SQL语句。个人建议是能用SQL处理的逻辑请务必在SQL中处理完成,以免造成不必要的问题。

确认之后就是输入用户名和密码了。这里需要的是数据库访问的用户名和密码。不过SQL server有一点特殊,那就是localhost的可以直接用windows的用户名和密码。

然而这里登录的时候不能输入SSH隧道的信息。很多公司的数据库都有SSH隧道的限制。这种情况下,就需要请出另一个东西了,power shell。这个东西不需要单独安装,系统中都是有的,直接从搜索栏搜一下就可以启动。在power shell中输入SSH隧道的跳板地址和用户名密码就可以了。

因为在这个项目中,其实没有太复杂的逻辑,且数据量非常小,所以直接在这里全选所有的数据表进行导入就可以了。

除了加载以外,还有一个选项是转换数据。转换数据其实就是启动power query对数据进行一次处理,但是作为预搭建的看板,其实还不需要做什么处理——我需要先看看描述性统计结果再确定接下来怎么搞。

加载稍微需要一点点时间,加载完毕后,数据表就出现在右侧了。

接下来就是做一些简单的描述性统计,同时也是最基础的power bi操作——拖拉拽!

先看比较简单的user表吧,这个表的数据比较简单:

数据就是日期、新增粉丝、取关粉丝、净新增粉丝数和累计粉丝数。

我们回到仪表板的页面,展开信息查看,可以看到,不同的字段,展示的图标是不一样的。date格式和datetime格式的数据直接展示为了一个日历的图标。数值型的数据则展示为了一个∑的符号。非数值型的数据前面则什么都没有。

用了这么多年的电脑了,大家应该都对这个日期这里的箭头并不陌生了——是的,这个箭头是可以展开的。

日期/时间的信息被自动转成了一个可以展开层次的日期层次结构。这一点得算power bi的特色功能了,时间智能,其他的BI工具中其实并没有这种东西。怎么说呢,这个东西有好也有不好,有的时候用起来挺方便的,但是其他时候用起来就有点离谱了。

预搭建的看板其实不需要什么复杂的设计,先把已经有的数据做出简单的描述性统计出来。接下来就是拖拉拽的操作了:

总结一下就是四个字:点就完事!

首先我们做一个用户增长变化的折线图,所以就在可视化这里选一个折线图(当然,想做其他的图就在这里选对应的图就好了)

然后就是在需要的字段上打勾。比如这里,我想看的 是统计日期和新增用户数的一个折线图,就直接在这两个字段上打勾就完事了(需要注意的是打勾的时候需要选中这个图表,不然会变成一个新的图表噢)。

然而,出现的图似乎不那么符合我的要求啊!他长这个样子的!!

这就是因为上面讲过的时间智能函数,有时候用起来很方便有时候又很坑爹的问题。仔细看这个图表的标题,就可以发现,这个图表的标题是:

聪明的你想明白了么?这个图表之所以是这个鬼样子,是因为数据展示了按年的数据,而我的数据中其实只有今年一年的数据,所以这里就展示为了一个点。是不是这么一说一下子就明白了?但是新手上手的时候确实会感觉非常困惑,完全不知道问题在哪里。

显然这个数据并不是我想看到的,我想看到的是月和日的趋势。怎么办呢?其实也很容易解决,图表的右上有这么一组选项:

如果把鼠标挪动到对应的地方,就可以看到鼠标悬浮框会有下钻的选项。在这里可以选择展开层次结构中所有下移级别展开到天——点一次展开到季度,点两次展开到月份,点三次展开到日。

这种自动的展开和钻取模式,真的是让我又爱又恨。爱的地方在于我自己用来做分析的时候确实省去了很多处理数据的时间;但恨的地方就在于,教用户怎么使用的教学成本有点略高。

这样一来,一个很基础的图表已经做好了。美化图表并不是这个预搭建的时候该做得事情,所以我们放到后面再说。现阶段要做的事情是如法炮制地把可能要用到的数据都罗列出来——先列出来才能更好地去构想还有什么数据是缺少的。所以这里只做一些很基础的图表美化操作,改一个我自己能看懂标题。

在预搭建的时候只需要非常简单的直接拖拉拽一些关键的数据,就能非常快速的手头的数据有一个大致的了解:

不需要太多的解释,单就这几个图表比对一下也能发现,实际上数据从6月开始才是有价值的,6月之前的数据都是可以被忽略的;不同的话题阅读量其实差异是非常明显的。

如果做一些简单的交互高亮,比如鼠标在AI这个主题这里点一下,页面上的其他图表随着我的戍边点击发生了变化:

这也是power bi一个在分析场景中非常实用的功能,可以通过高亮这种形式快速分析数据。当我们选中了职场之后,其他有关联的图表显示的其实就是职场这个话题相关的数据了。至于为什么文章标签和阅读量数据会是关联数据。这里就不得不提到表关系了:

我们可以从这个地方看到表结构,是这个样子的:

这里写了是一对多的关系。这个一对多的关系是怎么来的呢?因为我在数据库中建库落表的时候就已经写了这两个表的表关系嘛~

可以到navicat中进行查看:

这个一对多的关系其实在数据库中就已经写好了。

其他类型的数据库读进power bi的时候其实并不会把表关系读进来,但是sql server比较特殊,和power bi是一家的嘛,于是这个信息就这样进入了BI模型中。

实际上,我们可以在BI工具中单独写表关系,比如我希望content表和user表是一个一对一的关系,用日期关联。鼠标直接选中content表中的publish字段,拖到users表的stat_date字段上面就可以了。

其他的字段也是类似的操作。我甚至可以把模型做成这样(被孤立出去的那张表其实没有数据,是空表):

这个时候再回到看板的页面,就会发现当我选择一个话题的时候,高亮的范围已经变了,所有的报表都跟随我的点击发生了变化:

至此,模型预搭建的工作到此为止了。接下来就是对模型和看板做优化了。

不出意外的话,模型优化相关的内容会在下周二更新,有兴趣的朋友们可以关注一下进展~

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-09-19 08:10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 做数据的二号姬 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档