大数据选择最适合你的数据目录

    作者:邹铮 编译更新于: 2022-01-19 15:24:57

    如何选择最适合你的数据目录

    对于“大数据”(Big data)研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。

    在选择供应商之前,企业需要了解这个市场以及他们的需求和期望。本文可帮助你选择最适合你企业数据的数据目录。

    数据目录已成为企业数据管理策略的重要组成部分,但选择合适的数据目录并不是简单的事情。在做决定前,必须了解市场上的各种选项以及应优先考虑端事项。

    数据目录是元数据管理工具,可帮助企业查找和管理大量数据。数据目录背后的想法是将元数据集中在一个位置,并提供整个数据库中数据的完整视图。它还包含有关每个特定数据点位置的信息。

    在选择供应商之前,企业需要了解这个市场以及他们的需求和期望。本文可帮助你选择最适合你企业数据的数据目录。

    大数据选择最适合你的数据目录_大数据_数据结构_虚拟化_课课家

    为什么数据目录很重要

    Gartner公司高级研究主管Joe Maguire认为,企业对数据目录工具的需求主要源自三个方面。

    企业使用数据目录的第一推动因素是元数据管理变得越来越困难。数据架构更加复杂,并且数据量太大,以至于无法手动收集和描述元数据。

    Maguire说:“即使是旨在简化架构的技术(例如数据湖提供单个架构组件用于存储各种数据)也可能使元数据管理变得复杂。”

    面对数据量不断增长,有些企业并没有扩大其元数据管理。

    Maguire说:“正是由于忽略数据湖中的元数据,人们不得不创造出‘数据沼泽’的术语,以描述数据混乱而无人可清理的数据湖。”

    第二个因素是,随着企业追求自助服务分析和数据科学,对数据治理的需求也在增加。这也导致对数据目录的更高需求。元数据是数据治理的基础,数据目录使访问元数据更加容易。

    第三个因素是这个市场已经证明自己的价值。供应商的产品已经变得越来越多样化,并可真正帮助需要数据治理和元数据管理的企业。自动元数据发现、数据沿袭和对数据管理活动的支持等功能,使数据目录对企业具有吸引力。

    数据目录类别

    根据Maguire的说法,在讨论数据目录时,最重要的区别是了解企业数据目录和嵌入式数据目录之间的差异。

    Maguire说:“企业数据目录旨在整合来自各种元数据孤岛的元数据,而嵌入式数据目录是其他产品中提供的元数据管理功能集。”

    企业数据目录选项可以是DBMS、数据仓库或BI平台。嵌入式数据目录则形成元数据孤岛–企业数据目录试图整合的元数据孤岛。

    下面是最常见数据目录:

    独立数据目录。这些数据目录具有通用性、独立性和面向业务的特点,可广泛用于数据管理、分析和数据治理。此选项适用于必须对多个用例进行数据分类的企业。目前提供独立数据目录的供应商包括Alation、Collibra、Informatica和Data.World。

    提供目录功能的元数据管理工具。现代数据目录主要针对数据管理员和数据分析师,他们可自动执行元数据管理任务。Gartner在有关增强数据目录的最新报告中警告说,有些供应商将其元数据管理工具重新命名为数据目录。你应该自己做研究以确保你选择正确的工具。

    具有数据目录功能的Data Lake支持工具。随着企业继续构建数据湖,他们需要可搜索且可重复使用的数据。这导致供应商在其产品中增加数据目录方面。Zaloni和Cloudera Navigator都属于此类。那些因采用数据湖而感到畏缩的企业可考虑这些供应商。

    当你的企业确定选择企业数据目录或嵌入式数据目录后,你就可以继续寻找功能。好的数据目录应该提供很多功能。

    好的数据目录应该提供什么?

    作为企业,应该由你自己的团队来确定哪种产品与你的数据最相关。供应商的数据目录具有某些共同特征,必须首先对其质量进行评估。

    数据目录的重要功能在于其搜索功能。如果没有灵活的搜索和过滤器选项,用户将无法找到用于数据工程和分析目的数据集。数据目录还必须从大量关联数据资产收集元数据。它还必须提供自动化和数据智能,以处理与数据目录相关的手动任务。人工智能和机器学习可通过推荐来增强数据。

    数据目录还应该可连接到企业内数据架构的各个组件。Maguire说,企业数据目录可以被视为元数据的数据仓库。数据目录从元数据孤岛整合元数据,类似于数据仓库从数据仓孤岛中整合数据。

    数据目录另一个重要功能是提供连接器,以从各种组件(例如DBMS、BI工具和数据仓库)获取元数据。数据目录支持以下四种类型的元数据:

    • 技术元数据,描述数据模型、存储模式、文件布局和API。
    • 操作元数据,描述数据沿袭、性能和对数据各种操作所产生的日志文件输出。
    • 业务元数据分为两类。一种是描述业务的元数据,例如业务数据词汇表的内容。另一个是描述业务角色如何与数据资产交互,例如数据管理员、数据保管者、自助服务分析师,其中数据管理员负责特定数据资产。
    • 社交元数据构成知识,例如对某些数据资产的证明或认可,或其他用户对数据目录中条目生成的注释。

    常见供应商

    市面上有很多企业和嵌入式数据目录,这些选项通常具有相似功能和重叠功能。下面是对数据目录选项的简短比较。

    • Alation数据目录。Alation是独立的数据目录工具,使用AI来捕获企业内数据的背景信息。它被认为是所有员工都可易于使用的选项。
    • Qlik目录。Qlik的数据目录还具有自动化的数据准备和元数据工具,以协助原始数据的转换。它还具有数据市场,允许用户搜索和发布数据集。
    • Cloudera数据目录。Cloudera的数据目录使用户可以发现、记录和监视其数据。同时,此产品允许用户审核访问并保护敏感信息,以避免未经授权访问。
    • Collibra目录。该选项是另一个独立的数据目录,它是基于业务最终用户而构建。它是可搜索的存储库,使查找和理解数据更加容易。它还允许管理员记录角色和职责。
    • IBM Watson知识目录。这是用于人工智能模型治理以及数据的开放智能数据目录。此选项为用户提供实时数据虚拟化支持、动态数据屏蔽和自动元数据生成。
    • Oracle云基础架构。Oracle产品提供了搜索和探索选项,使用户可以通过多方面的搜索和过滤器从各种不同的来源中查找数据,并收集有关数据资产的技术元数据。
      麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。

课课家教育

未登录