买房,可以说是很多人一辈子最大的投资,几百万的代价那得慎之又慎,否则买到烂尾的、有质量问题、设施问题的房子那就实在不值了。另外,现在的市场房子楼盘还是很多的,房源数量也不少,如何从众多房源中买到理想的房子呢?这次就以一篇案例做详细的说明。
一、获取数据
先明确确定房子价格的因素主要在房屋本身的属性、房屋的空间地理位置、周边的其他设施,例如户型、区位、交通、价格、品牌、配套设施等。
首先可以通过某个地区房源网站上爬取相关信息,例如价格、面积、户型、位置经纬度等字段:
接下来可以爬取美团等团购网站的餐饮设施信息,包括餐饮类型、价格、区域、评价、位置经纬度信息:
也可以爬取周边区域设施的poi数据:包括经纬度信息、分布区域等字段。
二、数据整理:
在这一步对爬取的数据做初步的整理,这里我们需要整理的是房源距离市中心的距离、房源的基本信息、方愿周边1公里内的服务设施数量数据和分布数据。
这里使用ArcGIS分析系统对地理数据做整理将上述的数据放进ArcGIS里,以房源为基点做缓冲区,缓冲区半径为1KM。然后使用缓冲区与餐饮POI进行空间关联,这样就可以统计出一个房源1KM半径范围内餐饮POI的数量,价格,评论数等等信息,以便接下来建模使用:
然后计算每个房源点距离市中心的距离,在arcgis内导出投影后的经纬度,并在excel里计算出每个房源点距离市中心的距离:
三、建模分析
接下来我们要做的是分别查看各个变量和房价之间的关系,清洗数据后使用Rython和R制作矩阵散点图查看大概情况:
理解几个关键点:
1、图中的直方图为每个维度的数据分布;
2、散点图中圆越完美表明相关度越低,椭圆形状表明相关度显著;
3、图中的线条是查看线性关系的,可以体现自变量和因变量之间的关系;
4、相关性系数,绝对值越接近1表明相关性越显著,比如房价和面积相关度为0.77;
从上图中可以看到,某些因素明显有更高的相关性。于是使用全部属性构建一个回归模型,精确预估房价。
最终模型结果如下:Estimate为回归系数,std.error为标准误差,t.value为t值,pr.t为P值,显然所有变量P值均小于0.05,非常显著。
最后,来使用这个模型,来给房源定价。输入房源的信息,就能预测出结果。比如108平米,3房2卫,1KM半径缓冲区内有228家餐厅,平均价格114.2,平均评论数247.36,评论综合56399条,距离市中心6.438KM:
这样便能拿到预估价格,再和实际价格对比就可以作为一种购房参考:从左往右分别是:估价-最低估价-最高估价:
以上只是数据在房地产领域里头运用的一个案例,事实上,数据在房地产应用还是非常对的,包括房产产品规划、区域位置价值分析、拓客区域定位、客户人群价值判断、客户画像写真、精准营销、成本分析等等。
另外,需要说明的是,虽然我做过很多类似的项目,但是因为涉密的问题暂时无法公开。本文是大鹏的文章,并非我原创,我觉得思路基本就是类似的,希望对数据的有一个深入的认识。