关于使用路径统计分析的思考

无论是在app还是网页的数据分析中,符合某使用路径的主题式统计或各个使用路径的分布统计非常有必要。然而,在实际工作中,却往往难以很好的处理,故在此处,抛砖引玉:

  1. 主题统计也是指标,维度也是达到目标的工具

一个场景下,某一主题的统计量,这是一个指标么?答案显而易见。譬如用户点击A后点击B的情况所发生的次数等。强调指标,是为了能用维度去交叉分析。同时,更为重要的是,强调维度和指标规则两者共同来达到具体场景的计算。比如用维度去控制用户的base,再用规则去计算具体场景的指标。如斯的交叉便可以细化到某一类用户的场景。

  1. 时间与排序

有些场景统计的规则让人无奈,特别是APP或网页上用户行为分布的统计,每个用户的使用路径都可能不同,即便我们应用维度这一武器,也很难明确出不同路径分布的规则。比如某APP用户在WIFI环境下,其功能abcdefg使用(可能是abc,也能是adf等)的分布。在这种状况下,我们考虑使用时间与排序索引的方式,在日志回收后的ETL过程中,对数据表进行调整:(1)依照时间对每个用户的具体使用进程进行排序,(2)并添加时间排序索引和用户进程索引,前者表达每个功能再该用户该次进程中是第几个被触发的(为等差数列),后者用于识别该次用户进程,额外的帮助是便于统计该次用户进程所使用的功能数。

  1. 不要被污染数据所误导

无论是具体场景,还是所有用户行为路径的分布,都会涉及比例的问题:谁来做分母。从逻辑的角度考虑,是全部用户的base。然而,有些时刻,全部用户中会有很多数据被污染:如(1)用户行为异常的响应是否会被记录、传输;(2)传输过程中是否会有遗漏;(3)ETL时是否会有错误等等。因此,在做主题式统计时,对于数据ETL及其QA万不可疏忽于万一。

总结一下,作为主题式的统计分析,主要有两种类别(1)各种使用路径的分布情况;(2)指定路径的占比。基于这些的统计分析,了解产品场景假设被用户认可的情况,以持续迭代改进。对于这种分析,前者使用排序索引和识别索引来实现,而后者在数据层面上要用指标规则和维度去限定。在数据获取过程中,分辨率越高的数据,对数据质量越敏感,故在此过程中一定要注重QA。

文/孙晗

2013-12-29 08:3977數據分析