首页>学校动态>大数据工程师到日常工作都是什么

大数据工程师到日常工作都是什么

来源:西安IT培训机构时间:2020/8/9 10:34:27

  今天我们就来了解一下大数据工程师的日常工作内容。对于技术完全一头雾水的小伙伴请直接跳到“情景”那一栏开始阅读。

  首先让我们先了解下大数据工程的日常工作,通常包括两个方面 – 数据需求以及处理需求。

大数据工程师到日常工作都是什么

  数据需求

  结构:你应该知道数据可以储存在表中或者文件中。

  储存在一个预定义的数据模型(即拥有架构)中的数据称为结构化数据。如果数据储存在文件中且没有预定义模型,则称为非结构化数据。(种类:结构化/非结构化)。

  容量:数据的数量。(种类:S/M/L/XL/XXL/流)

  Sink吞吐量:系统所能接受的数据速度。(种类:H/M/L)

  源吞吐量:数据更新和转化进入系统的速度。(种类:H/M/L)

  处理需求

  查询时间:系统查询所需时间。(种类:长/中/短)

  处理时间:处理数据所需时间。(种类:长/中/短)

  精度:数据处理的度。(种类:准确/大约)

  下面,我们举个例子说明上述工作内容:

  情景:

  为分析一个公司的销售表现需要设计一个系统,为此你需要创建一个数据池,数据池来自于多重数据源,比如客户数据、数据、客服中心数据、销售数据、产品数据、博客等。

  设计目标:

  1. 通过整合各种来源的数据创建一个数据池。

  2. 每隔一定时间自动更新数据(在这个案例中可能是一周一次)。

  3. 可用于分析的数据(在记录时间内,甚至可能是每天)

  4. 易得的架构和无缝部署的分析控制面板。

  数据要求:

  结构:大部分数据是结构化的,并具有一个定义了的数据模型。但数据源如网络日志,客户互动/呼叫中心数据,销售目录中的图像数据,产品广告数据等是非结构化的。图像和多媒体广告数据的可用性和要求可能取决于各个公司。

  结论:结构化和非结构化数据

  大小:L或XL(选择Hadoop)

  Sink 吞吐量:高

  质量:中等(Hadoop&Kafka)

  完整性:不完整

  处理要求

  查询时间:中至长

  处理时间:中至短

  精度:准确

  随着多个数据源的集成,要注意不同的数据将以不同的速率进入系统。

上一页 下一页

推荐课程更多>

立即申请体验课

关于我们 | 联系我们 | 西安IT培训机构

版权所有:培训指南

  • 在线咨询
  • 电话咨询
  • 预约试听