数据概览
本次项目使用到的数据包括:一卡通消费数据、校园网wifi数据、上海市闵行区气象数据。具体来说包括:
- 商户信息:共134项观测,包含32个商户系统、85个子商户;
- 用户信息:共30861项观测,包含30861个一卡通账户、30812个学号,即有49名学生拥有两个一卡通账户;
- 交易记录:共7915289项交易记录,时间跨度为2014-09-01至2015-01-31;
- 气象记录:共26660项气象记录,时间跨度为2014-08-15至2015-03-25;
- 校园网记录:共12736408项校园网记录,时间跨度为2014-09-01至2015-01-31。
我的工作
我的工作主要针对一卡通消费数据。
首先是对数据的概要统计,包括用户群分布、商户结构、历史降雨和校园网纪录。
接着从消费类别总额、消费类别次数、消费类别均值、男生消费总额和女生消费总额等角度统计食堂就餐纪录,并且以第三餐饮学生餐厅为例,分析其历史就餐总额变化趋势、雨天和晴天就餐情况对比、一天中不同时段的就餐密度等内容,从而研究食堂就餐量和降雨量、校园网活跃人数等因素之间的关系。
最后,分析了不同类别用户在各个消费类别和商户的消费分布,包括消费总额和消费次数等,并建立了横向模式和纵向模式两种模型来分析不同类别用户的就餐模式。
最后的报告部署在,代码托管于。
作品升级
后来我觉得,自己不应仅仅停留于产出一份数据分析报告,而是更希望能呈现出一款完备的应用级系统;数据源也不再只是一卡通消费数据,而是做到了对一卡通消费和校园网wifi数据的360度全面分析。
经过一个月的艰苦奋斗,我的产品逐渐成型,一款以构建智慧校园数据生态系统为愿景的实时监测和分析统计系统——Elite。
Elite的意思是“精英”,即我们致于提取数据中最精华的部分給用户,同时“E”表示数字化和信息化,“lite”和“life”相近,即智慧校园中的数据生活。
总的来说,Elite的功能包括以下几个方面,校园实时监测、餐饮分析、学务管理、教学统计、个人顾问、Elite助手、信息共享等。
- 实时监测:包括实时人群监测、人群迁移趋势和就餐人数预测等;
- 餐饮分析:包括各大商户今日就餐总额和就餐次数等实时统计、实时就餐总额和历史日均总额的计算、餐饮人群组成和各大食堂占比的分析;
- 学务管理:包括男女生上网关键词汇总、不同年级学生对不同关键词的关注程度分析、本硕博学生不同场景不同时间wifi流量分布统计、学生在一卡通消费和wifi用网量上的分布、浴室人群流量实时监测和预测;
- 教学统计:包括校园设备、科研设备、教学设备统计,科研立项、科研到款、科研著作、论文发表统计,各大校区硬性指标对比,和各类别学生数量统计;
- 个人顾问:根据匿名处理后的学号获取该学生的一卡通消费和校园网wifi数据,从勤奋系数、就餐系数、睡眠系数、清洁系数、恩格尔系数、个人评价、个人关注、用户群分类等角度展示个性化统计结果;
- Elite助手:提供针对用户个人定制化的推荐和建议,包括生活预警、学习预警、活动推荐、课程推荐、动态记录等;
- 信息共享:包括“活动”、“点评”、“比赛”、“二手”、“租房”、“实习”、“校车”七大模块,聚集校园里各个方面的动态信息。
对于Elite的定位,我觉得它是智慧校园中数据source和sink之间的连接器。更具体的来说,在智慧校园这个不断进行数据循环流动的生态系统中,学生和校方是数据的生产者,学生、校方以及商户都是数据的消费者,而Elite则是数据的分解者。Elite实现了数据的处理加工和资源的整合重用,使得生态系统中的各个角色都能互助共赢。
我使用prezi制作了一份产品的介绍和分享。Elite部署在,代码托管于,在里面可以找到产品介绍和分享的prezi。
总结
经过这次的尝试,我掌握了R的基本使用和数据分析的流程,强化了自己数据可视化的能力。作品成果也从一开始简单的统计分析逐步改善,最终成长为完善强大的智慧校园数据分析系统,工作量很大,算是一次不错的开发经历。