我一直有一个有些偏激的观点,认为80%企业碰到的数据用不起来的问题本质都不是数据应用的问题,而是数据质量的问题,要回到数据收集的环节中去解决。
或者说,以现在大部分企业数据标准化的程度,连是否有数据统一都谈不上,更不要谈在基于数据统一的基础上进行数据的应用了。
可能有些人觉得我在耸人听闻,那今天我们就从头说说,数据不标准到底包含哪些方面以及分别会带来什么问题。
全文大纲:
01 到底什么是数据缺乏标准,有哪些ID也不统一
02 数据的埋码和监测缺乏标准化
03 数据对象的定义缺乏标准化
04 数据收集的不标准,最终都会导致数据标签无法规范化
05 无法忽视的“房间内的大象”:概念、用词和数据指标的不统一
1 到底什么是数据缺乏标准,有哪些ID也不统一
你没看错,很多企业,连到底什么算数据都还没有统一标准。这个我就不多说了。参见我过去很多文章写的,数据必须是二元结构的。
除此之外,对于数据是什么的标准,还有包括数据的不同范畴应该如何界定和理解这样的一些基本性规则也不统一。不要认为这很理论,这种情况也会给企业带来很多数据应用上的麻烦。例如下面的情形。
一方数据和二方数据发生混淆,一方数据概念不一致:最基本的是对于一方消费者数据是什么的认知不统一。只有企业自己拥有(own),可以自己触达的个体消费者数据才是一方消费者数据。有些企业说,我从电商那里获得的数据可以发短信,可以在平台里面投放,怎么不是我的一方数据呢?因为这些数据所属方并不是企业,而是平台,你没有办法从平台拿出来,就不能属于一方数据(而是被称为二方数据)。
这种认知不统一不标准带来最直接的问题,就是企业对自己到底有多少数据,能用多少数据的量级心里没数。有些企业说我有2000万个可以发短信,打电话的手机号,最后发现里面只有10%是企业自有的。2000万自有手机号和200万手机号的应用场景大小,获得的收益,分析后得到的结论可是大有不同!
以为自己有大体量数据,因此设计了巨大的数据应用场景,最后发现无数可用。往小了说,这会让数据负责人直接下岗,往大了说,是企业战略决策的误判,导致大量资源的浪费。
一方数据的ID标准不一致:在明确了一方数据是什么之后,就会产生新的问题:哪些ID属于一方数据呢?
一种误区是,只有手机号属于一方数据。手机号确实可以判断用户的唯一身份,但是获取手机号的成本只会不断增加,这是自己在给自己增加数据获取难度。
第二种误区是除了手机号之外,所有的其他ID(包括Device ID,微信Open ID & Union ID,抖音BDID等等等等)都属于一方数据。这样难免会陷入如果我要获取更多一方数据,我所需要的投入会呈几何数增大,但是我的业务ROI无法平衡。同时,还增加了ID拉通的压力,最终导致大家觉得ONE ID是个不可能的命题,数据拉通项目流产。
所以需要有一个对企业一方数据,甚至是整体消费者数据的ID体系的规划和统一。很多企业没有弄清楚到底能获得什么ID,又到底需要用什么ID,这极大阻碍了后面的数据应用。
一种很常见做法是:不管什么ID,也不区分这些ID的重要性,我先把能获得的数据都获得,能搞来的ID都搞来再说。最后,可以骄傲地说自己拥有了一个巨大的一方消费者数据的ID库,拥有大量一方数据的数据资产。但是,恐怕事与愿违,这些资产很可能后续非常难以被应用。
举个我们碰到过的实际例子:一个企业有百万量级的一方数据ID库,但是里面有70%都是通过广告收集到的Device ID。企业希望通过会员券的发放,激活存量的用户,转化为新会员,为会员小程序引流。当他们想要对这些用户发放只能在小程序内应用的优惠券的时候,结果70%的人连触达都做不到。
还有一个典型例子,由于ID收集的不统一,最终会在圈选用户的时候发现,想要找到20个人群包发短信,最后可以发短信的只有5个人群包;其余ID都不可用,最终依然是圈了一堆人群包,结果每个包的数量都很小,也不确定里面人群是否有重叠,根本用不了。
这背后的根本原因是数据的增长实际上是要与业务增长深度绑定的。单纯追求数据增长实质是一个伪命题,一方数据的获取,最终是为了更好的进行业务应用。因此,一定是先搞清楚数据应用的目的,再来收集数据。
如果你的业务是完全基于小程序的私域电商,那微信生态的UnionID对你的重要性与手机号同等重要;但是如果你是一个设备开发方(例如苹果手机),那设备ID与人的ID绑定是核心(这也就是为什么所有手机生产商都要你用手机之前注册手机生态的原因之一)。
2 数据的埋码和监测缺乏标准化
第二个数据标准的不一致是在埋码和监测上的不一致。这也是大部分企业日常最常见的坑。
第一种是对于事件监测的需求认知不一致。有些企业会把出于时间或者成本原因,把全局埋点等同于事件埋点,然后在业务需要进行分析的时候发现全局埋点无法满足业务点对点的分析需求
第二种是同一个事件属性命名,但是背后的动作不同。比如系统收到一个“会员福利领取“的事件参数,但是由于触点发生了改动,第一次是用户注册后领取初次优惠券后返回的;改动后是用户首次签到后领取初次优惠券后返回的。看上去是同样的按钮,但是背后的事件逻辑发生了根本的变化,这在后续的数据分析中,就会产生大量的数据重新梳理和清洗,与业务对齐的额外工作产生。
第三种是同一个动作,但是由于添加监测的部门、甚至做埋码方案的人不同,导致同一个点位或者渠道前后命名不一致。这种例子太多,最典型的就是渠道监测,同一个渠道但是可能有3-4种命名。类似的情况也会发生在触点动作命名上,同样的业务动作在不同触点上也会有不同命名。例如登录,在触点A写作登入,在触点B就变成了login。
不论是哪一种不标准,最终导致的结果同样是数据分析中出现问题,产生错误的结论从而导致错误的业务改进动作和决策,最后变成“数据分析都不靠谱,与业务没关联,根本没用”这个粗暴的结论。
3 数据对象的定义缺乏标准化
除了埋码和渠道监测本身之外,数据对象的定义不一致也是常见的坑之一。
最典型的例子,就是产品命名本身。产品是串联消费者数据的核心对象之一,因此它可能同时出现在好几个系统内,包括订单系统,ERP,CRM等等。先抛开供应链端的系统不说,光在不同的平台的订单系统和用户CRM里面,同样的产品可能都有不同的命名逻辑。
简单点的,有些产品命名是拼音,有些是英文缩写,有些是中文名。
复杂一些的,有些是以产品功能和系列来区分产品,有些是以套装、单品还是礼品装来区分产品,有些是以生产批次来区分产品……
所有的这些数据分析对象的不统一,最终都会导致花费大量的时间进行数据清洗和整合,最终可能清洗后都无法确保数据是否准确,是否有遗漏或者重复计算。最终,变成了“每次取数都要重新花时间清洗,这个工具根本不靠谱”。
4 数据收集的不标准,最终都会导致数据标签无法规范化
不统一的埋点与渠道命名,加上不统一的数据对象(人、产品、触点),其实都是收数阶段的不标准。在最初源头的不标准,必然导致数据标签的不统一。这种不统一,除了在标签统计上会产生问题,最终导致分析结论发生错误之外,最大的“坑”在于它直接导致人群画像和人群圈选无效化。
人群画像和圈选,本质是根据多种层级和类型标签的积累,从个体中找到共性,从而进行不论是分析还是再触达和运营的动作。因此,标签作为一种最小单位的用户行为共性,其统一性和颗粒度实际上是起到决定性的作用的。最底层的标准都不一致,架在上面的楼只能塌。
最直接的一个例子,就是大家对“购买意图”的定义不同。在团队A中是领取优惠券,在团队B中是加入购物车,在C团队中可能是多次点击产品详情页。这在最后做用户画像中,就有可能导致有高购买意图的用户画像,在品牌自有电商,淘宝和京东其实有不同含义。最终大家一起汇报的时候发现,品牌私域电商里有200万个高倾向用户,购买转化率是5%;但是在淘宝电商,高倾向用户的转化率变成25%。这背后可能并不是两个平台属性、用户群差异和特征,而是数据指标不统一的锅。
当然,这一问题的解决方法不止于数据标签的统一,也有对数据异动的识别,标签模型的优化等等。但是,数据标准的统一必然是这些解决方案的基础动作。
5 无法忽视的“房间内的大象”:概念、用词和数据指标的不统一
有时候,数据团队(可能就是CIO们)可能做了大量的数据标准化、规范化和数据清洗的工作,最后依然搞不定数据标准。这背后,是对企业,特别是传统企业内认知的标准化要求,具体表现为跨团队之间一些常用概念、数据用词和数据指标的不统一和不标准。
大到企业内部对“公域”和“私域”定义的不同,对所谓数据应用的范畴,用户画像到底应该包含什么这样业务角度的术语不统一。小到常用的数据指标的不统一,不同的系统和团队对PV,UV,User的定义可能都不相同。不论哪一种不统一,最终都是增加内部沟通成本,最终导致内部运营工作的时间和人力成本“熵增”,与数字化的拉通、协作和降本的初衷背道而驰。
因此,在企业内部建立一套标准的数据和业务相关的语言体系,也是非常重要的。
总结一下,现在企业面临的诸多营销数据的问题,源头都在于数据标准的不统一。包括ID的不统一、埋码的不同意、分析对象的不同意最终导致标签规则的不同意。这四种统一下,我们还需要一个统一的数据指标,作为切入点拉通内部用词。