数据管理的11个秘密

    作者:匿名更新于: 2022-07-09 20:33:37

      一些悖论与收集和组织如此多数据的实际挑战有关;一些涉及哲学问题,测试我们推理抽象性质的能力;更有甚者围绕收集大量数据的隐私问题正日益加剧。

      有人称数据为“新石油”,也有人称其为“新黄金”。抛去这些比喻的合理性不论,毫无疑问,对于任何希望兑现数据驱动决策承诺的企业来说,组织和分析数据都是一项至关重要的工作。

      为此,可靠的数据管理策略便成为关键所在。这包括数据治理、数据运营、数据仓库、数据工程、数据分析、数据科学等,数据管理如果做得好,可以为每个行业的企业提供竞争优势。

      好消息是,基于几十年来发展的合理原则,数据管理的许多方面都得到了很好的理解。例如,它们可能不易应用或理解,但多亏了基准科学家和数学家,公司现在拥有一系列用于分析数据和得出结论的回归框架(logistical frameworks)。更重要的是,我们还有统计模型,可以绘制误差线来描述我们的分析范围。

      不过,尽管研究和推动数据科学的各类学科带来了诸多好处,但有时我们仍然摸不着头脑。企业经常会遇到各种难题:一些悖论与收集和组织如此多数据的实际挑战有关;一些涉及哲学问题,测试我们推理抽象性质的能力;更有甚者围绕收集大量数据的隐私问题正日益加剧。

      以下是数据管理的11个秘密:

      1、非结构化数据难以分析

      企业中有80%-90%的数据为非结构化数据,随着数字化转型逐渐步入深水区,非结构化数据量正在飞速增长。这些数据以文档、图片、音视频等形式散落在企业内部,由于部门、应用、架构、多云环境等原因形成非结构化数据孤岛,难以进行共享和利用,挖掘出内容价值,严重阻碍企业的数字化转型进程。

      举个例子,我有一个朋友渴望使用人工智能来搜索其银行呼叫中心工作人员记录的文字,因为这些文字可能包含有助于改善银行贷款和服务的见解。但是,这些笔记是由数百名不同的人记录的,他们对于如何写下给定电话的内容有不同的想法。此外,每个工作人员也有不同的写作风格和能力。有些人根本没有记录下太多信息;有些人则记录了太多自己解读的内容。这些文本本身就没有太多结构可言,当你有成百上千名员工几十年来记录的一堆文字时,任何结构都可能变得更弱。

      2、即便是结构化数据也常常是非结构化的

      优秀的科学家和数据库管理员通过指定每个字段的类型和结构来指导数据库。有时,以更多结构的名义,他们将给定字段中的值限制为特定范围内的整数或预定义的选择。即便如此,填写数据库存储表格的人还是会想方设法地增加难度。当他们认为某个问题不适用时,有时以字段为空表示;其他人则会输入破折号或首字母“n.a.”来表示。优秀的开发人员可以通过验证发现其中一些问题。优秀的数据科学家还可以通过清理来减少这种不确定性。但令人抓狂的是,即使是最结构化的表格也有可疑条目——这些可疑条目可能会在分析中引入未知数甚至错误。

      3、数据模式(schema)要么太严格要么太宽松

      无论数据团队如何努力阐明模式约束(schema constraint),用于定义各种数据字段中值的最终模式还是要么太严格,要么太宽松。如果数据团队添加了严格的约束,用户会抱怨他们的答案在有限的可接受值列表中找不到。如果数据模式过于宽松,用户可以添加几乎没有一致性的奇怪值。

      4、数据法非常严格

      关于隐私和数据保护的法律很强大,而且只会越来越强大。在GDPR、HIPPA等十多个法规的约束下,收集数据可能非常困难,而且一旦遭遇黑客入侵将会更加危险。在许多情况下,请律师的钱会比雇佣程序员或数据科学家的钱多得多。这些令人头疼的问题就是一些公司会在处理完数据后立即将其处理掉的原因所在。

      5、数据清洗成本巨大

      数据清洗也叫数据清理,是指从数据库或数据表中更正和删除不准确数据记录的过程。广义地说,数据清洗包括识别和替换不完整、不准确、不相关或有问题的数据和记录。

      许多数据科学家承认,90%的工作只是收集数据,将其以一致的形式呈现,并处理无穷无尽的漏洞或错误。拥有数据的人总是会说,“一切都在CSV(逗号分隔值,一种通用的、相对简单的文件格式)中,可以随时使用。”但他们没有提到空白字段或错误描述。相较于在R或Python中启动例程以实际执行统计分析,清洗用于数据科学项目的数据所需的时间要高达10倍之多。

      6、用户越来越怀疑你的数据实践

      最终用户和客户对公司的数据管理实践越来越怀疑,人工智能算法及其使用只会加剧恐惧,让越来越多的人对捕获其数据的行为深感不安。这些担忧正在推动监管进程,并经常使公司陷入公共关系危机。不仅如此,人们还故意用虚假值或错误答案干扰数据收集。有时一半的工作是与恶意合作伙伴和客户打交道。

      7、整合外部数据可以获得回报,也会带来灾难

      公司拥有所收集数据的所有权是一回事,但是他们想要将自己的本地信息与第三方数据以及互联网上存在的海量个性化信息整合起来又是另一回事。一些工具公开承诺会收集每个客户的数据,以便在每次购买时建立个性化档案。没错,它们正在使用与追踪恐怖分子的间谍机构相同的词来跟踪你的快餐购买和信用评分。难怪人们会感到担心和恐慌!

      8、监管机构正在打击数据使用

      没人知道精明的数据分析何时会越界,但一旦越界,监管机构就会出动。在最近发生在加拿大的一个案例中,政府调查发现一些甜甜圈店会跟踪也在竞争对手那里购物的顾客。据最新发布的一份新闻稿称,“调查发现,Tim Hortons与一家美国第三方定位服务供应商的合同包含的语言非常模糊和宽容,以至于允许该公司为自己的目的出售‘去识别化’的定位数据。”为了什么?卖更多的甜甜圈?无论如何,事实证明监管机构正越来越关注涉及个人信息的任何事情。

      9、你的数据方案可能不值得

      我们想象一个出色的算法可以让一切变得更加高效和有利可图。有时这样的算法实际上是可能的,但价格也可能太高。例如,消费者(甚至公司)正越来越多地质疑来自精心设计的数据管理方案的定向营销的价值。有些人指出,我们经常看到已购买的东西的广告,因为广告跟踪器还没有发现我们已经不需要它了。同样的命运经常会降临到其他计划上。有时,严格的数据分析会确定表现最差的工厂,但这无所谓,因为该公司签署了一份为期30年的大楼租约。公司需要为这种可能性做好准备,即所有数据科学天才可能会产生一个不可接受的答案。

      10、最后,数据决策通常只是主观判断

      数字可以提供足够的精确度,但人类如何解释它们往往是最重要的。在所有的数据分析和人工智能操作后,大多数算法都需要决定某个值是超过还是低于阈值。有时,科学家希望p值低于0.05;有时,警察会为超速20%的汽车开出罚单。这些阈值通常只是任意值。对于可以应用于数据的所有科学和数学,许多“数据驱动”流程中的灰色区域比我们想象的要多,尽管公司可能在其数据管理实践中投入了所有资源,但决策更多的还是取决于直觉和主观判断。

      11、数据存储成本呈爆炸式增长

      磁盘驱动器的容量越来越大,且每TB的价格不断下降,但程序员收集数据的速度明显快于价格下降的速度。来自物联网(IoT)的设备不断上传数据,用户希望能够永远浏览这些字节的丰富集合。与此同时,合规官员和监管机构不断要求提供越来越多的数据,以防将来进行审计。如果有人真的看过其中的一些数据,那将是一回事,但我们一天只有这么多时间。实际再次访问的数据百分比越来越低。然而,存储扩展包的价格一直在上涨。

      来源: 企业网D1Net

        >>>>>>点击进入大数据专题

大数据 更多推荐

课课家教育

未登录

1