大数据聊聊数仓模型杂烩

    作者:曾二爷更新于: 2021-03-26 17:12:37

    聊聊数仓模型杂烩

    大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换而言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。

    人的大脑算力有限,世界又太过于复杂。需要将你的关注点抽象出简单模型,用于问题的研究和解决。

    大数据聊聊数仓模型杂烩_大数据_数据分析_数据安全_课课家

    本文转载自微信公众号「曾二爷」,作者曾二爷。转载本文请联系曾二爷公众号。

    一、什么是建模

    人的大脑算力有限,世界又太过于复杂。需要将你的关注点抽象出简单模型,用于问题的研究和解决。

    比如数学建模,将关注的问题抽象成数学模型进行解决;比如AAARR增长黑客模型,抽象出用户的5个生命周期进行研究和指导行动。

    而数据建模便是将问题域用数据表示出。

    二、业务模型

    接下来我们以下面的公立校业务场景来进行探讨:

    老师创建作业布置到多个班级

    班级里的学生做完后提交作业(一个学生只有一个班级)

    这里涉四种实体(老师、作业、班级、学生)及四个业务流程(创建作业、布置作业、做作业、交作业)。

    三、关系型三范式模型

    服务端的同学为了在关系型数据库中满足业务快速增删改查,尽量减少数据冗余,常常采用三范式进行数据建模。

    针对上述业务一般会有(老师、作业、班级、学生)四种实体表和(班级-作业、学生-作业)两个关系表。

    创建作业这个业务弱化到了作业表中

    布置作业体现在班级-作业关系表中

    做作业和交作业融合到学生-作业关系表中

    这样我们6个表的增删改查就可以实现这个业务。

    四、数仓模型

    4.1 维度建模

    到了数仓我们主要将数据用于分析,一般采用维度建模将三范式模型进行重构。划分维度和事实,建立不同层级的数据,满足多种分析场景。

    当我们需要分析的是老师布置作业到班级这个业务过程时,作业-班级就相当于事实表,维度表有班级、作业。

    4.2 粒度

    业务过程会有不同的粒度,比如学生-作业的粒度就比班级-作业更细。粗粒度的班级-作业能汇总学生-作业的一些信息,比如某份作业某个班级有多少人提交。

    一般我们会重点建设各个业务过程的最细粒度的事实表,方便后面的多级粒度的汇总。

    4.3 历史与现在

    通常来说数仓从业务库同步过来的数据都是当前数据的一个镜像,业务库的模型都是针对于当前业务的,不会保存历史的信息。比如新的学期班级表中的年级属性会变更,业务库就直接进行更改。

    到了数仓如果我们要计算历史作业的提交信息,那就得保存学生提交作业的当时他所在的年级。像年级慢慢变化的维度我们称之为缓慢变化维。

    处理方式既可以建立一个班级历史信息表,关联的时候带上时间,也可以将年级信息‘退化’到学生-作业的事实表中不再放维度表。

    4.4 多事实融合

    所谓宽表既可能是多个维度退化到事实表形成的,也可能是多个有关联的事实融合而来。

    比如 文中的例子我们可以通过信息的冗余和置空实现一个最极端的宽表:老师-作业-班级-学生

    该表记录了所以老师的信息,如果没有创建过作业那其他的信息都为空

    如果老师有创建过多个作业那老师的信息冗余存储到每条作业信息

    班级和学生信息也全都记录到这个表上,如果没有作业信息,那老师、作业信息都为空,如果有多条作业信息也进行冗余存储

    使用的时候就需要按需去重或者过滤空值

    这样融合了多个业务流程的明细,可以支撑各种业务的分析,但维护成本、存储成本等都是很高的。

    麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。

课课家教育

未登录