你见过熄了灯的东方明珠吗?
平日里流光溢彩的陆家嘴褪去华丽灯光,参与到一年一度的“地球一小时”中。而在全世界,有7000+城市、超过10亿人共同参与到这场“熄灯接力”中。
地球一小时是由世界自然基金会发起,全球规模最大的环保公益运动。“地球一小时”活动首次于2007年3月31日在澳大利亚的悉尼展开,吸引超过220万悉尼家庭和企业参加;随后,该活动以惊人的速度迅速席卷全球,覆盖现已超过180个国家与地区,7000多个城市,吸引了数亿名支持者。地球一小时呼吁个人、社区、企业和政府在每年3月最后一个星期六20:30-21:30期间熄灯一小时,以此来激发人们对保护地球的责任感,以及对气候变化等环境问题的思考,并用行动表达支持。
“地球一小时”从建筑节能方面为环保做出了杰出贡献。我国的建筑能耗约占全国总用能量的四分之一,高居能耗首位。近年来随着建筑业的不时开展,建造和运转运用的能源数量越来越大。建筑节能是改善和进步建筑节约能源、促进环境维护、减少温室气体排放量的重要措施之一,意义重大。
居住者行为会显著影响建筑能耗,但与此相关的研究几乎是空白。由于人类行为的随机性和高度不确定性,人类行为研究一直是一个非常有挑战的课题。上海交通大学国际与公共事务学院讲师、学者梁昕博士的“居住数据的分析和预测”学术论文,使用数据挖掘和机器学习的方法识别楼宇动态人数,分析和预测楼宇内居民的行为模式,此研究对能耗管理等有一定启示。
接下来,就让我们一起走进梁昕老师的学术成果,感受社会科学与计算机科学交叉互补的别样魅力。
数据挖掘方法
数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程,对于解释数据背后隐藏的现状有着显著优势。比如在梁昕老师的此次研究中,通过算法计算来自美国能源部能源效率中心的大量实地数据,发现楼栋内人员出入的时间规律,从而推断人员出入时间表。
作为一位将计算机科学与社会科学二者紧密结合的学者,这一次,梁昕老师运用数据挖掘方法对楼宇内居民的行为模式对建筑能耗的影响进行了相关调查。
在此之前,学界已有针对居民行为影响建筑能耗的研究,但如何对居民行为进行系统建模始终是个难题,制约了研究结果的准确性。先前研究轻真实数据,而重主观假设,由于居民行为具有高度随机性,因而在缺乏真实数据校验的情况下,将居民简单地划分为“正常作息组、早起组与加班组”是不合适的。此外,数据来源仅为几间独立的办公室,当将研究结果应用到整栋楼宇时,可能会产生偏差。另外,先前很少有研究通过数据分析预测未来的居民行为,因而研究结果缺乏实践意义。
为弥补上述研究缺陷,梁昕老师采用数据挖掘方法分析和预测居民行为。数据挖掘方法在该研究课题上有着对数据种类要求低和操作简单的优点。
(数据挖掘六大步骤)
此次采用的数据挖掘共包含以下六大步骤
Step 1. 搭建问题框架
本次研究问题为通过分析历史数据以预测未来居民行为,研究范围为工作日办公楼的人员出入情况,衡量本研究是否具有实践意义的关键因素是预测结果与观察数据是否具备相似性。
Step 2.获取并处理数据
剔除无效数据,并用统计方法(箱线图和平均值)对数据进行预处理,寻找数据的特征,以获得有效数据。
Step 3. 选择具体方法
数据挖掘方法囊括了多种子方法,不同子方法适用于不同研究,因而选择合适的方法,可以使研究事半功倍。在本研究中,机器学习方法被用于分析居民行为,采用归纳法以归纳居民行为。
Step 4. 算法运行
这一步目的在于发现并归纳居民行为的时间规律。聚类分析和决策树算法被分别用于认知行为和规则归纳。
*聚类分析:聚类分析是一组将研究对象分为相对同质的群组的统计分析技术。同一个群组中的对象有很大的相似性,而不同群组间的对象有很大的相异性。
*决策树算法:决策树算法是一种逼近离散函数值的方法。它是一种典型的分类方法,首先对数据进行处理,利用归纳算法生成可读的规则和决策树,然后使用决策对新数据进行分析。本质上决策树是通过一系列规则对数据进行分类的过程。
Step 5. 预测
数据被分为训练集和测试集两部分,训练集中数据被用于大量运算以帮助建模,确定运算规则。基于经由运算得到的居民行为分析,居民行为时间规律表得以被预测。
Step 6. 校验
将预测结果与先前测试集部分的数据进行比对,以校验数据。两部分数据越接近,表明所选用运行方法越得当。
(研究数据来源:美国能源部能源效率办公楼 Building 101)
运算结果
人员出入楼宇情况的主要特征
由于研究数据样本为一办公楼,因此周末及节假日,出入楼宇人数接近于零,因此,当分析人员出入情况的时间一览表时,这部分情况被排除在外。工作日里,从早上七点至下午四点,出入人数波动较大,意味着出入人数具有动态性及随机性,为根据传统统计方法理解和预测出入人员的活动状态造成困难。
(各工作日不同时间段人员出入情况)
根据图表,可直观地将楼宇内人员数量情况划分为六个阶段。
1.夜间(7pm-6am):楼内基本空无一人
2.上班高峰期(7am-9am):员工陆续前来上班,楼栋负荷率从10%上升至70%
3.上午工作时间(10am-12am):大量员工在楼内进行工作。楼栋负荷率达到80%
4.午休时间(12pm-1pm):一些员工外出就餐,楼栋负荷率略有下跌,低于80%
5.下午工作时间(2pm-3pm):员工重新开始工作,楼栋负荷率回升至80%以上,但略低于上午工作时间
6.下班时间(4pm-6pm):员工陆续下班,离开办公楼,楼栋负荷率从70%下跌至10%。
备注:楼栋负荷率(the occupancy rate)=楼栋中实时居民数量/楼栋最大可容纳居民数量
人员出入楼宇情况的模式分类
梁昕老师根据聚类分析,归纳了人员出入楼宇情况的四大模式。
模式一:工作时长短,员工上班晚、下班早,楼宇内人数在午休时间并未出现显著变化。
模式二:工作时长长,员工上班早、下班晚,午休时间大约在中午12点左右
模式三:中等工作时长,楼栋负荷率在上午九点左右上升至50%,在下午六点前下降至50%,午休时间在下午两点左右
模式四:近似模式三,但上下班时间及午休时间都比模式三提前一小时。
接着,梁老师采用聚类分析和决策树算法,基于上述四种行为模式,依次探寻了不同季节中居民出入的行为模式规律,进行预测,得到结果,并加以验证。所有验证标准都显示在居民行为模式分析上,采用数据挖掘方法比传统分析方法效果更好。
数据挖掘算法在此次研究中发挥了三大优势
1.发掘了数据背后隐藏的行为模式和特征
2.只需要基础的数据输入
3.用相对简单的算法运算却能更准确地进行预测
研究的意义
此次研究结果可被应用至不同领域,尤其能在预测能源使用情况方面做出贡献。本研究得到的数据挖掘方法更利于分析居民行为的结论能够帮助提升预测能源使用情况的准确性。此外,本研究能帮助改善能源利用效率,可根据所预测的居民行为不同模式来提前调整对应时间的楼栋光照、电器等设施,有效节约能源。
关于人类行为预测
梁昕老师的这一研究其实是一类关于人类行为的研究和预测,这一领域是现在非常有创新和极具潜力的一个研究方向,机器算法也为更好地理解人类行为提供了分析工具。有兴趣的同学可以加以持续关注。
老师寄语
对于人类行为的分析是是科学界一个新的热点。这个领域开始被最前沿的科学研究者所关注,有人称2017年是人类行为研究新时代的元年。
科学界也开始反思,随着科技的发展,我们探索广阔的宇宙空间、微观的纳米材料,我们使用云计算、大数据,甚至关注人工智能和机器人。然而,我们对人类自身行为又了解多少呢?我们的行为是如何形成的?它遵从什么样的规律和特征?不同的行为会对外界会产生怎样的影响?有些讽刺的是,人类现代科学中最无知的版块恰恰就是对自身的认知,有太多的疑问和空白值得我们去追寻和探索。
(梁昕老师漫画形象 作者:黄卉宁)
对人类行为的研究目前主要有两个方向,一是通过大数据的方法观察和理解人类行为的特征、模式以及差异,并在此基础上进行分析和预测;另一方面是通过脑科学、认知行为等方法去理解人类行为的成因以及背后的逻辑链。两种方法一个是宏观的认知一个是微观的认知,相辅相成。好像自然科学中,我们对“水”这种物质的认知,有宏观的温度、密度、沸点、冰点等特征,也有微观的分子结构和化合反应等。
本文试图通过第一种,即大数据的方法,对一座建筑物中居住者的活动进行特征描述,并基于此进行预测分析。这个小小的案例研究在整个人类行为研究中是微不足道的,但是正是许许多多学者在不同的领域,对不同的行为进行大量的分析,才可以有全面而深厚的积淀。也希望各位有兴趣的学子能够关注该领域的前沿研究,投身其中,我们一起积跬步以致千里,推动该领域的进步!
在此诚挚感谢梁昕老师的供稿分享和全程的耐心配合!
参考文献:
*Xin Liang, Tianzhen Hong, Geoffrey Qiping Shen,Occupancy data analytics and prediction: A case study, Building and Environment 102(2016)179-192
*V.S.Subrahmanian and Srijan Kumar, Predicting human behavior: The next frontiers, Science 355(6324).489.
撰稿:叶智旸
编辑:叶智旸
领取专属 10元无门槛券
私享最新 技术干货