大数据工程师到日常工作都是什么

来源：西安IT培训机构时间：2020/8/9 10:34:27

　　今天我们就来了解一下大数据工程师的日常工作内容。对于技术完全一头雾水的小伙伴请直接跳到“情景”那一栏开始阅读。

　　首先让我们先了解下大数据工程的日常工作，通常包括两个方面 – 数据需求以及处理需求。

大数据工程师到日常工作都是什么

　　数据需求

　　结构：你应该知道数据可以储存在表中或者文件中。

　　储存在一个预定义的数据模型（即拥有架构）中的数据称为结构化数据。如果数据储存在文件中且没有预定义模型，则称为非结构化数据。（种类：结构化/非结构化）。

　　容量：数据的数量。（种类：S/M/L/XL/XXL/流）

　　Sink吞吐量：系统所能接受的数据速度。（种类：H/M/L）

　　源吞吐量：数据更新和转化进入系统的速度。（种类：H/M/L）

　　处理需求

　　查询时间：系统查询所需时间。（种类：长/中/短）

　　处理时间：处理数据所需时间。（种类：长/中/短）

　　精度：数据处理的度。（种类：准确/大约）

　　下面，我们举个例子说明上述工作内容：

　　情景：

　　为分析一个公司的销售表现需要设计一个系统，为此你需要创建一个数据池，数据池来自于多重数据源，比如客户数据、数据、客服中心数据、销售数据、产品数据、博客等。

　　设计目标：

　　1. 通过整合各种来源的数据创建一个数据池。

　　2. 每隔一定时间自动更新数据（在这个案例中可能是一周一次）。

　　3. 可用于分析的数据（在记录时间内，甚至可能是每天）

　　4. 易得的架构和无缝部署的分析控制面板。

　　数据要求：

　　结构：大部分数据是结构化的，并具有一个定义了的数据模型。但数据源如网络日志，客户互动/呼叫中心数据，销售目录中的图像数据，产品广告数据等是非结构化的。图像和多媒体广告数据的可用性和要求可能取决于各个公司。

　　结论：结构化和非结构化数据

　　大小：L或XL（选择Hadoop）

　　Sink 吞吐量：高

　　质量：中等（Hadoop＆Kafka）

　　完整性：不完整

　　处理要求

　　查询时间：中至长

　　处理时间：中至短

　　精度：准确

　　随着多个数据源的集成，要注意不同的数据将以不同的速率进入系统。

推荐课程更多>