最后结果是这样:
下面详细说说各阶段具体的实现。
爬取数据
这部分唯一值得注意的是,PUBG.ME在你第一次访问的时候,会丢给你一些cookie:
聚类
考虑到前100的正常玩家水平不会有太大差异,可以合理的估计,对300个样本点的聚类事实上是分开了正常玩家以及外挂玩家。
先来看一看样本点的分布:
在全部的37个attr中,刻画玩家某项平均数据的attr即以上7个。应知友 @燃之煤 的建议,我们先来看看avg dis on foot的分布:
?????大佬这一手秀得我头皮发麻,地图一共是10km*10km,游戏内玩家不嗑药空手行进速度大概是27km/h。一局撑死40分钟,就算一局一直跑,还活到最后,满打满算最多能跑18km(还要不停兜圈子)。这老铁居然平均能跑15.59km???平均啊!!!这是神仙腾云驾雾的节奏。
我们可以看到,正常玩家(未必正常,我感觉跑不到1km的人很可疑)跑路的分布还是比较符合预期的,大概是均值在2附近的正态分布(看图,像不像二项分布,像不像啊?),有心人可以做个回归看看,因为和文章主题关系不大,这里就不画了。
回来算一算吃鸡率(我觉得这是唯一反应玩家能力的数据)与各项数据的相关性,先去上课orz
光从相关系数上看,好像枪法和吃鸡率没有很高的线性相关性,是简单的正相关。
果真是这样吗?我们去掉由外挂玩家造成的噪声,只考虑聚类后密度最大的一类,再来看一看: