行业专家首席解决方案架构师Mark McQuade对组织在寻求降低其数据湖的复杂性时需要考虑的问题提供了自己的见解。
咨询和托管服务提供商Onica公司首席解决方案架构师Mark McQuade学习和拓宽了他对从Docker和Kubernetes到人工智能和深度学习的各种知识。McQuade分享了对数据池的看法。
为什么组织使用数据湖?
数据湖用例的范围从数据科学家开发的机器学习算法到构建统计可视化,以及使用生成的见解来指导业务决策。
为什么数据湖如此复杂?
随着数据每五年增长10倍,数据平台需要扩展1000倍才能满足未来15年的存储和处理要求。采用数据湖可以减轻这种负担,但是由于数据清理、数据准备和安全配置的复杂性,建立数据湖的过程涉及一系列步骤,这些步骤可能变得非常繁琐,将持续数月之久。此外,在数据湖的整个生命周期中,还涉及其他人工步骤,例如管理和监视ETL(提取、转换、加载)作业,基于数据更改更新元数据,维护清理脚本等。
建立数据湖需要多长时间?
建立一个完善的数据湖可能既困难又耗时,这个过程可能需要三到六个月的时间。使用AWS Lake Formation可以简化以往花费大量人力构建数据湖的工作,并且可以将构建数据湖的时间减少到数周,不必那么复杂或花费那么长时间。
简化数据湖有什么好处?
组织简化数据湖可以节省大量的时间和减少麻烦。通过完善组织对数据湖的维护,可以减少保持一切正常运行所需的内部专业知识和资源,使IT团队能够专注于更紧迫的项目,从而从长远来看节省了组织成本。
数据还可以帮助组织预测客户行为,自动化流程以提高效率,除了自动化客户服务之外,还可以通过速度和可用性增强产品供应。这些用例要求数据是安全的和实时可用的,随着越来越多的人访问数据,重要的是数据平台是灵活和可扩展的。AWS Lake Formation可以解决所有上述问题。
组织如何简化数据湖?
建议使用AWS Lake Formation,它可以消减很多人工工作,并且可以将构建数据湖的时间减少到数周,它还允许组织以三种方式简化数据湖:
组织是否还有其他方法可以降低其不采用这些特定步骤或Amazon的数据湖的复杂性?
虽然这三种超大规模方案都提供了管理数据湖的方法,但对于组织而言,在采用新技术之前先问自己要解决的问题始终很重要。尽管简化数据湖对于某些组织而言可能是关键,但可能存在只能用另一种解决方案解决的情况。
组织在简化其数据湖时绝对不应该做哪些事情?
组织需要避免内部部署工作,并坚持使用无服务器数据湖。无服务器的数据湖可以使IT团队有效地进行扩展,而内部部署则需要频繁的软件升级和对物理硬件的关注。
建立数据湖时,可能会花费大量时间和精力,组织可能会想办法走捷径,但是当涉及到数据和将为组织的数据提供强大动力的数据平台时,需要避免这种走捷径的举动。
组织如何才能确保在构建数据湖时考虑到未来因素?
确保组织的数据平台是为长期成功而不仅仅是为了满足当前需求而构建的。例如,组织可能此时对机器学习不感兴趣,但是在接下来的两到三年内,很可能希望对数据进行一些预测。组织确保拥有一个健壮、可扩展且安全的数据平台也是一个好习惯,这将使组织的业务和数据在未来几年内都能正常运行。
从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。
上一篇:大数据面前每个人都是赤裸的
下一篇:大数据如何确保风控和利益
¥680.00
¥280.00
¥699.00