大智能数据将掌控未来?

    作者:Campbell Brown更新于: 2023-11-01 17:38:43

    大智能数据将掌控未来?

    大数据包括结构化、半结构化和非结构化数据,非结构化数据越来越成为数据的主要部分。据IDC的调查报告显示:企业中80%的数据都是非结构化数据,这些数据每年都按指数增长60%。大数据就是互联网发展到现今阶段的一种表象或特征而已,没有必要神话它或对它保持敬畏之心,在以云计算为代表的技术创新大幕的衬托下,这些原本看起来很难收集和使用的数据开始容易被利用起来了,通过各行各业的不断创新,大数据会逐步为人类创造更多的价值。

    尽管准确的外部数据是可以为您的计划带来确定性的少数因素之一,但许多数据科学家报告称,他们却花费了大约80%的时间来清理、验证和准备数据。

    大数据智能数据永生_网络推广_系统集成_ui交互设计_课课家

    十多年来,大数据一直在稳步增长。新兴的数据驱动公司已经崛起,并成为价值数十亿美元的巨头,而成熟的市场领导者则早日意识到了数据的力量,并进行了相应的投资。但是就像许多事情一样,2020年是对数据战略的一次警钟,尤其是许多没有立即产生价值的战略。

    我认为现在是时候接受大数据的局限性并接受对智能数据的需求了。向智能数据的转变已经持续了至少十年。我自己的公司背后的核心思想是为企业提供他们需要的智能数据,以改善需求预测。

    尽管准确的外部数据是可以为您的计划带来确定性的少数因素之一,但许多数据科学家报告称,他们却花费了大约80%的时间来清理、验证和准备数据。

    在智能数据的新时代,已被清理、验证、特征化并且能够插入模型并开始快速交付价值的数据,可能性很大。通过配置智能数据,模型可以更快地查找和使用最有影响力的数据,从而了解世界的运作方式并做出更好的决策。充分利用智能数据的企业可能是那些摆脱了大数据思维方式的公司。

    我们如何陷入大数据淹没?

    数十年来,企业一直在向数据源投入资金,并将更多的信息注入其数据湖。但是,新数据并不总是等同于新的智能(对于机器学习模型,尤其是对核心业务战略),慢慢地,所有这些数据的权重就逐渐建立起来。

    由于大多数数据源都需要清理和标准化,因此聘请一个拥有多个研究生学位的昂贵员工,其通常也会在一周的大部分时间里花时间整理基础数据。当将近90%的数据科学项目从未投入生产时,再加上产生有用的机器学习模型的复杂性,就意味着大量的数据科学投资并没有取得重大收益。

    2020年进入大流行时代。当财务团队对所有事务运行精细化管理时,必须做好任何准备。正确的数据项目决定成功与否,但是任何不能用于改善核心功能的东西(例如需求预测、定价或提高竞争优势)都是没有道理的。数据更好的时代已经过去,现在是进入智能数据新时代的时候了。

    大规模聚合和使用数据仅仅是开始

    最重要的部分是获取价值。您现在如何让数据达到目标?最近10年的分析瘫痪状态已经结束。

    大数据策略一直试图使数据海洋沸腾已久。这些极简主义方法行不通,因为它们太难了。他们从来没有做过,当您的团队成员较少,利润更紧且您的需求预测依赖于过去的数据时,他们肯定不会这样做。从我所看到的情况来看,现在最好的企业正在将注意力集中在数据湖的深度和广度上,而更多地从中获得最大的价值。

    现在是时候将我们的数据策略从瘫痪状态转变为启用状态了,以获取资产并将其转化为可以从中获取价值的东西。现在,让您的数据科学家自由地完成他们梦寐以求的工作:不收集、汇总和清理数据,而是构建模型以利用大数据来进行诸如劳动力优化和价格预测之类的核心流程。

    麦肯锡的首席数据官和该公司的一位合作伙伴在2月的一篇文章中很好地指出:“许多公司在收集和利用其自身活动中的数据方面取得了长足的进步。尽管如此,到目前为止,很少有人意识到链接的全部潜力内部数据以及由第三方、供应商或公共数据源提供的数据。忽略此类外部数据是错失的机会。... COVID-19危机提供了一个示例,说明在短短几个月内外部数据的相关性、消费者的购买习惯、活动和数字行为发生了巨大的变化,使先前存在的消费者研究,预测和预测模型过时了;此外,随着组织争先恐后地了解这些不断变化的模式,他们发现内部数据很少使用。外部数据可以而且仍然可以帮助组织进行细粒度的计划和响应。”

    展望未来,您可以使用数据为动态决策提供依据,并使模型更准确,从而在大流行混乱中提供确定性。您可以使用数据来做出关于效率和机会的明智决策,而这些决策却可以立即发现,而无需五个人组成的五个月的研究团队在三个月后进行。这就是智能数据的力量。

    什么定义了智能数据?

    随着企业学会借力,自动化和机器学习变得至关重要。智能数据始于可靠且经过验证的数据,但不仅仅是真实的记录。需要对其进行丰富、情景化和特性化,以使其不再仅仅是原始信息,而是高质量的信息。这减少了将新数据输入到机器学习模型中的摩擦和易于出错的特性。

    在评估每个新数据源时,您应该提出以下要求:

    这些数据是否提供足够的深度以为我正在构建的模型要解决的问题提供足够的背景信息?

    • 数据的验证度和准确性如何?
    • 当我们进入期待已久但混乱的恢复阶段时,更新和重新验证的频率是多少?
    • 是否足够丰富,我的模型将知道如何处理其输入?
    • 这将使我的机器学习模型更快更好地做出哪些核心业务决策?
    • 我可以轻松地解释此数据源显示什么,以及它对我的预测和运营的影响吗? 

    去年,最终的黑天鹅事件使许多企业措手不及。现在,许多人都在努力集成新数据并推出数据驱动的恢复计划,以了解什么将推动他们的需求。不管是电视体育比赛还是节节高涨的需求,洪水或恐怖袭击使需求下降,还是许多大型活动让大多数企业无法预料的人员聚集规模,很多企业都参与其中。而且我认为每个企业都必须做到。

    大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。

课课家教育

未登录

1