为什么说做不好数据基建，就会“搞垮”一个公司的数据化管理？

2021-11-14 15:05:37 阅读：122 来源： 互联网

来源：黄成明-《帆软·决胜数字化转型》直播

黄成明：畅销书《数据化管理》作者、数据化管理专家

文章整理：grace

我最近几年给很多企业做数据化的咨询和培训，发现两个最大的问题。第一个是很多企业在谈数据化管理，更多侧重于仪式以及上层结构的一些转型。比如大数据化，线上线下的数据如何打通等等，做数据应用层面的东西。企业花了很多心思在数据应用层面，当然这是需要做的，但是我们还需要一个数据的基础层面的东西，也就是数据基建。

我们发现第二点尴尬的事情就是很多企业几乎没有做数据的基础建设。同时另外一个尴尬地方是我们很多跑数据结构的时候，是IT部门在负责做，那就会造成企业数据没有业务化，数据不能满足日后的业务发展的需求。所以基于这两方面呢，其实今天我就想跟大家好好聊一聊。

在企业数据化管理中，如何从业务角度去搞基建？我自己从业务出身，所以希望从这个角度上我去谈谈，帮助大家，因为在座大多是it部门的同事，那我们从这个角度给大家一个抛砖引玉的作用，希望大家能够去了解到，从业务角度我们怎么可以做得更好。

我在很多场所提到一个概念“养数据”。一个企业要搞数据基建，就是要去养数据，这养数据像养小孩一样，小孩由小到大在慢慢养起来，变成一个大人，其中有很多艰辛。养数据也是一样，数据从无到有，也是需要靠大家一点一点去养起来的。只有这样，日后的企业在应用层面我们才能有更多维度、更多高质量数据可以使用。

所以从养数据角度来讲，我把他划分为了三个层次。在讲三个层次的内容之前，先给大家看一张图片。

为什么说做不好数据基建，就会“搞垮”一个公司的数据化管理？

这个图片是711收银的收银键盘。我们认为一般的收银键盘无外乎就是数字和收款。但是它其中多了十个按键，增加了两个数据维度，就是当你在711买东西的时候，服务员不是第一时间去扫你商品的码。而是第一时间在上面按一个键，这个键其实就是看你是男的还是女的，年龄大概处于什么样的一个阶段，是少男少女还是中男中女？还是青男青女？有了这两个维度的数据之后，对于一个店来讲增加了很多可以做数据分析的东西。

比如说，他可以发现部分时间段店里顾客的人群是不一样的，顾客的画像就更丰满了，从而他在选择商品、选择促销的时候就会游刃有余。因此，这其实就是一个非常好的养数据的一个案例。现在很多国内的便利店，其实早在几年前也在开始学711这种做法，把收银键盘改成这样。所以通过很简单的一个做法这个数据就养出了两个维度的数据在里面了，所以这是一个很好的可以推广的一些地方。

养数据的三个层次

第一个层次就是完善数据结构，把数据做大
现在很多企业自己有大数据，有多维度的数据。但是目前我们的数据可能能够满足目前发展的需要，甚至很多企业可能都还没办法去满足这个需要，我们需要去增加我们的数据结构。

但很多企业数据结构是左挖一处，右挖一棒子，不是系统的。那就会造成整个系统变得越撑越大而不是系统化，给各位的建议是，一定要和业务部门一起去画一个基于3-5年的数据结构，这里的业务部门包括销售、市场、财务、人事等等，他们也会源源不断的产生数据出来。思考我们在这3-5年的时间范畴内：

我们需要哪些数据？
需要哪些结构的数据？
人的方面我需要哪些数据？
商品方面我需要哪些数据？
如果我做零售的话，零售卖场需要哪些数据？
如果是工厂的话，工厂生产线还需要哪些数据？
……
从这个角度来讲，我们就可以很好地去把我们数据做一个梳理。注意，我说的是3-5年这样时间一个范畴去做一个数据的梳理。数据结构3个层次中第一个层次，结构中有些数据可能大部分其实已经有了。比如说你做商品的，一般进销存、供应商、物流的数据肯定是有了，这个基建说明你开始已经建好了。

重点我说的是第二部分。这个数据结构里面，在你的数据蓝图里面，有部分数据是没有的，但是通过一些方法能够改善，能够获取到的，这是第二类的数据。对于这样的数据目前暂时没有，但是我通过想些办法能有这样的数据。又有分三个层面：

第一，我想获得这些这部分内容数据，可能需要再上一个系统。这个系统不一定是多大的系统。可能只是一个小的数据系统，比如用FineReport的数据填报功能，你可以很容易去收集到数据。

第二个，可能需要上设备。比如说做零售的要获取客流数据，所以现在越来越多的零售店铺已经把这个视频的人脸识别，有些可能是用的wifi探针，还有些可能是用的红外的技术。不管用哪种技术，我上了这个设备，我就很容易去收集到客流量和进驻时间段。那么如果你是视频识别的话还可以看到性别、年龄段，这样数据维度就很多了。通过以上两点后，其实你就会发现很多东西就有了数据。

当然还有第三类，这个数据蓝图里面还有第三类，就是这个数据我也需要，但是通过上系统会说上设备暂时还不能解决。因为你的数据难度是基于3-5年的，还不能解决好了。数据结构面，先放着，先不去管他，但是在数据结构面先画上，把它留出一部分的地方在你未来系统里面，你首先想的是还有哪些数据我需要在逐渐往里面去添的，这就是把数据做大。

那么这样来做之后，你会发现另外一个层面的一个问题，从业务层面的角度来看的话，我们最有价值的数据，其实不在我们系统之中。怎么讲呢？

举个例子，二战的时候飞机战，很多科学家就商量，我需要把飞机的哪一部分加固才能够增加飞机的使用寿命。于是很多数据分析师就去统计，这些飞机中弹的弹孔在什么位置，有在机翼的，有在机身的，有在机头的，有在机尾的等等。这个统计完之后，就决定我们要加固飞机的哪些地方。但是，这个时候有一位数据分析师就提出不同意见，说其实我们不应该去统计这些数据和这些地方。我们应该反而去统计弹孔少的，反而应该去把那种弹孔少的地方加固才有意义。这位分析师就说，道理其实很简单，你们目前统计的数据只是代表这些中弹了之后还能飞回来的飞机的数据。真正那些中弹了之后飞不回来的那些飞机数据，我们要去看它是在什么地方中弹的，那才是最有价值。而这些飞机往往是我们目前统计不到的数据，这就叫幸存者偏差。

幸存者偏差，在我们很多行业里面，其实我们很多数据是幸存者偏差来做的。比如说，我们要分析我们的顾客画像。我们要给我们顾客画像，所以我们就会去找，假设你是做零售，我要给顾客画像的话，我肯定基于他的购买记录。什么时间买的什么商品，买了多少金额等等。你可以按RFM各种维度去画像，这种画像就是一种幸存者，因为还有大部分的顾客，其实他可能到了你店铺里面来了，但是没有购买。

他可能是有互动过，有沟通过，交流过，有试穿过，或者是试用过、试戴过，但他没购买。因为他没购买所以他的数据没有进数据库。进到数据库的都是幸存的数据，所以我们要想把数据做大的话，从另外一个维度来讲，我们还需要去从另外一些方面去想到我能够获得更多未成交的一些数据。

举个例子，一个鞋企为了获取这种未购买顾客的数据，在每一个试穿的鞋里面，都置入了一个压力感应器。这个压力感应器当顾客试穿一次这个鞋之后，压力就会累积一次数据，当累计数据多了之后就会发现有的鞋试穿的人很多但是购买的人很少，转换率很低。那有些鞋呢是正相关的，试穿的多买的也多。这个时候试穿的多，买的人很少的鞋，那就是要分辨原因是价格的问题还是款式的问题还是什么其他的原因。找到原因对症下药，转化成交率就能得到提升。这就是有效的通过养数据来更好的获得非购买人群的数据。

同样道理，去年有一个企业，他想找我给他设计一个框架，一个产品，如何去预测员工的离职率和离职动机，他的离职取向是越来越大，还是越来越低？其实如果你要这样去分析，但有没有些现成数据？有。比如现成数据，它的薪资是不是越来越低？这些数据是可以获得的。那还有一些感知的数据，比如老板对他的态度怎么样等等，这些数据我是需要通过一些方法去获取的，比如他每天打卡的时间。

如果他以前这个员工每天正常是六点下班，他以前每天都7、8点上班，突然从某个时间节点开始？他踩着点下班了，这数据其实我们考勤系统是有的呀。我是不是还能够去养数据，比如我能看到他上班时间浏览外网的时间占比。甚至现在很多那个招聘公司还提供一种投简历的数据。有了这一数据之后其实是很容易形成一个产品，去预测员工的离职概率，这就是说把没有的数据做大。

其实我把数据做大也不是说我一定要上系统或者一定要上设备，但有的时候可能需要上个意识，意识形态到了就行了。举个例子就是我前几年在这个服装企业中遇到一个案例。当时我我发现他有一个一线卖货的售货员，就是卖服装的。卖服装的这个员工，他的销售额都特别高，比这个店铺的其他员工的销售都高很多。于是我就想了解背后的原因，就去问是什么原因。那最后问下来之后呢，大家都说这个人特别能卖货，他卖货卖好在什么地方呢？又说不出来，那我去观察。和他聊天，我发现这个员工是非常好的一个养数据的大师，他在和顾客的沟通过程中，他会注重收集这个顾客每个月什么时候发工资？因为他是vip的销售一种模式。他当然不会直接问，又是女装啊这个某某女士你每个月什么发工资？他肯定不这样子问，他肯定是一种迂回的一种方式去问。说我们公司真讨厌，说好每个月15号发工资，今天到月底公司都没发，哎，王姐，你们每个月发工资正常吗？那对方肯定会回答我们正常每个月15号都发。他问出来这个信息之后，他自己会拿小本记下来说，王姐每个月15号发工资。那你想想，如果你是业务员，你获得这样一手的这样数据之后，那你下个月你就知道什么时候和客户沟通。让他回来进行复购。当然，我说的案例其实指的是上意识，当然这个案例他并不有可复制性。对企业来讲很难变成一个企业行为。但是讲这案例的目的其实是告诉大家。其实我们可以从艾迪部门业务部门合作去挖掘，有些数据啊。只是你意识到了数据自然而然就到了。

所以，这是数据基建的非常重要点，完成数据结构，把数据做大。

第二点是提高数据质量，把数据做精
有数据，但数据质量不行，这是企业里面普遍存在的一个问题。比如做零售行业的企业，在vip客户数据中，一定能发现大把10岁以下、90岁以上的，甚至100岁以上的顾客在系统里面存在。这些都是无效数据，这就是没把好数据的关，所以我们零售企业在分析顾客数据的时候，不做好数据质量，分析结果就是失真的。作为IT、数据部门的人，就应该在这方面花点心思，让这种数据尽量少出现？比如首先思考，为什么这些不合规的数据会出现？比如刚刚的vip年龄，举个例子，我们会发现自己的朋友圈里面有一些人他的国家不是写的中国，是写的安道尔。为什么？因为安道尔是微信里面选择的第一个国家，很多人自己不去选系统就自动默认成安道尔。同理，为什么很多家线上顾客填的那个出生日期是1月1日呢？因为系统默认1月1号，顾客不去改，就会造成这样系统质量问题。

所以造成的原因有几种。第一种，是无意识。数据入口的员工无意识造成这种输错了。第二种呢，是企业没有规则。今天我卖了20张小票，等到快下班的时候呢，把20张小票变成一张单子，录到系统里面，那就造成金额可以对上，但客户订单数量或订单金额，平均订单金额处理的这两个数据变成无效数据了，这也是数据质量有问题的。

第三种原因就是故意的。员工通过往系统里面做数据，可以获得利益。还是以零售行业为例，有的vip一个月来复购几十次上百次，那显然这张vip卡是在员工手里面自己算积分了。在统计数据时这种vip就应该要去剔除掉。还有一种vip更奇怪，上午在北京消费，下午在广州消费，晚上又跑到成都消费了，同一个vip号，他一天在全国很多地方都消费过，那这个就是专门卖vip权益了，所以这就是故意的。所以第二点大家特别要重视，当你在已有的数据里面，一定要提高数据质量，把数据做精。

第三点养成数据入库的意识和机制。
数据入库的意思和机制，我们有各种系统，但是很多数据其实是在系统外的。很多企业有大量的纸质的excel表格，那这个数据其实就没进入系统里面。而从实际的经验表明，纸质版的材料数据指标口径、报表格式不统一，还有错别字等问题，想要录入系统是一件非常困难的事情。即便是excel电子表格的也会出问题，很多数据是保存在员工个人的电脑里面的。如果员工离职了，这些表格一般不交接，即便交接了后面的员工也不会看。所以给各位的建议就是，一定要养成数据入库的习惯，比如通过FineReport的数据填报功能，把所有原来纸质版的数据，让它们录入系统。

所以一定要去夯实数据的基础。否则数据驱动数据转型就是空中楼阁。养数据是非常费力不讨好的一件事情，但确实值得做。如果是一个负责任的IT部门，你是IT的领导者，真的需要花点时间去死磕这部分内容，你不可能全磕下来，磕下来部分就行了。给大家些建议，这项工作，按数据标准化，很多企业经常为数据打架，同一个指标，财务部和业务部算出来对不上。这种情况经常出现，而且是大厂也会出现。比如我之前和一位阿里的朋友聊，同一个转化率就在阿里内部有十几种定义制度，当时他们就吓坏了，我发现我们每次开会他说的不是同一件事情。

如何做好基建标准化？

这里也给大家一些建议，养完数据之后，怎么去做数据标准化？怎么去提高数据质量？怎么去让数据入库。

为什么说做不好数据基建，就会“搞垮”一个公司的数据化管理？

第一点，建立数据标准化制度，新增手册，并不定期的考试
光有手册大家不看的，要定期考试，定期抽查一下，让大家重视一下这件事情。

第二点，严格管控数据入口，防止不真实，不客观的有问题的数据流入
想想哪些人有权限往你们系统免征数据，能接触到系统的这些员工他们都有权限往里面扔的数据。那一定要管控数据入口啊，要规范他们，否则数据入口没掌握好，数据就会出大问题，所以一定要严格控制数据入口。

第三点，完善ERB后台的程序，建立数据输入时的预警提醒
有些东西其实我们可以后台设置好，比如手机号设置是11位的，10位数就不能进入系统。有些东西提前设好一个规则，你输不进去。所以完善ERB后台系统以及报表的数据填报功能，从后台设计基础设置设定的一些算法，去尽可能地防止错误的数据出现。

第四点是定期测试并评估数据质量，修正数据输入流程。有商品流程，有运输流程等等流程，数据也需要流程的，所以在做数据的基建的时候也要流程化。

第五点是建立数据输入黑名单制度，定期公布。it有时说话业务部门不听，这很尴尬。但IT部门可以建立黑名单制度，比如上个月xx区、xx部门数据输出错误出现了50次，xx区、xx部门出现了40次，xx区又出现了多少次？这时候你就可以放心业务部门了，他可能不听你的话，但业务部门是多一事不如少一事，枪打出头鸟，我不出头，但是提了黑名单之后他们就紧张了。

那么怎么具体系统的建立数据的基建呢？

为什么说做不好数据基建，就会“搞垮”一个公司的数据化管理？

要建立一个执行机构，包括建立数据标准化的项目小组，只有这个项目小组有权限去规划公司的数据需求和框架。业务部门提需求说要增加指标时，就要提正式需求，说明原因和业务场景，项目小组同意了之后才能加。大家不能随意都能在里面生成一些指标，并且定义可能还不一样。所以，这个项目小组的第一个作用就是规划公司的数据需求框架。

第二点，他们需要去梳理并确定所有指标及定义。有些指标是行业里面约定俗成的，但有些指标其实不一样，有些业务老大特别喜欢自己生造指标，自己生生造一个指标出来。没问题，你有需求提出来，我们的项目小组讨论你这个指标是不是可以变成公司标准化的一部分，以及如果说可以变成标准化的一部分，该怎么定，这个一定要明确清楚。

第三点，小组有权审议和发布指标口径变化。比如，人力资源部每个月都会统计离职率。那你们可以回去问一下你们公司的人力资源部的离职率定义是什么？你会发现很多公司的这个定义不一样。国内的企业里面光离职率的指标定义就有七八种制度。各种定义都不一样，而并且有些机灵一点的人力资源经理还每个月都不一样，哪个指标算出来离职率低我就用哪个指标。所以项目小组就能够去审议这个指标口径。

第四点，小组需要定期去评估各部门的数据规范情况。数据基建涉及了每个部门，所以每个部门都需要去规范一下，就把它真正当成一个项目来做。

第五，学习借鉴其他公司的管理经验。比如学习一些行业先进的公司他们是怎么做基建呢？他们数据应用怎么做的？项目小组要经常去参加这样的一些提升自己意识的一些活动。那这个项目小组的成员，各个部门的老大或者至少是二把手要在项目组里面，老板最好也能在里面，当然it也要在里面。各部门的老大或者老二以及老板进入这个项目小组里面，所以下设一个专职助理就行了，他的职责第一就是项目小组和各部门的联系纽带，第二带动各个部门以及帮助各个部门去维护数据规范、培训数据员工，专职助理要制作及发布数据的手册。第三熟悉各部门的数据的指标的需求，你需要增加什么指标，你要改哪个指标的定义，收集大家的信息。第四个，监督各个部门的数据规范的使用，哪些部门做的好，哪些部门做的不好，他有权去发布这个通道，一定要让他们重视起来。第五点，他还需要去管理和抽查数据质量的入口。

所以，既有项目小组，又有专职负责。只有这样，企业的数据的基建才会做的越来越好。这几点就是我基于之前做业务以及我给很多企业服务去做培训做咨询了解到的情况，把它做了一个汇总，希望各位未来我们在数据转型的道路上，可以多在思考数据应用之外，多花点时间去好数据基建的工作。

标签：很多,这个,里面,搞垮,系统,基建,数据,我们
来源： https://blog.csdn.net/u014514254/article/details/121317759

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

为什么说做不好数据基建，就会“搞垮”一个公司的数据化管理？