什么是大数据开发
来源:邯郸IT培训学院时间:2020/8/19 10:03:51
大数据开发是干什么的?
大数据作为时下火热的IT行业的词汇,随之而来的数据开发、数据仓库、数据安全、数据分析、数据挖掘等等围绕大数据的商业价值的利用逐渐成为行业人士争相追捧的利润焦点。随着大数据时代的来临,大数据开发也应运而生。
大数据开发其实分两种,类是编写一些Hadoop、Spark的应用程序,第二类是对大数据处理系统本身进行开发。类工作感觉更适用于dataanalyst这种职位吧,而且现在HiveSpark-SQL这种系统也提供SQL的接口。第二类工作的话通常才大公司里才有,一般他们都会搞自己的系统或者再对开源的做些二次开发。这种工作的话对理论和实践要求的都更深一些,也更有技术含量。
大数据开发需要掌握哪些技术?学习路线如何?
阶段一:Linux&Hadoop生态体系基础知识、原理
Linux体系、Python编程语言核心用法、Hadoop离线计算原理、分布式数据库Hbase、数据仓库Hive、Flume分布式日志采集、zookeeper全局分布式锁、kafka分布式发布-订阅消息系统、spark分布式计算框架。
阶段二:分布式计算框架和Spark&Strom/flink生态体系
(1)分布式计算框架优化与实战
Scala编程语言核心用法、Spark(sql、shell)大数据处理、Spark—Streaming大数据处理、Spark—Mlib机器学习)大数据处理、Spark—Streaming大数据处理、Spark—Mlib机器学习、hive数仓实战、hbase实战。
实战一:数据采集业务+flume
实战二:kafka+sparkstreaming实时数据处理
实战三:推荐系统(完整流程)+工程
(2)Storm/flink技术架构体系
Storm/flink原理、基础、调优消息队列kafka、Redis工具、zookeeper详解
实战一:LogServer
实战二:storm/flink+zookeeper
实战三:hbase+zookeeper
阶段三、数据挖掘与机器学习
结巴+隐马尔科夫、维特比算法+userCF、spark实现userCF+itemCF+LR+商品预测、决策树+随机森林+GBDT、支持向量机SVM、神经网络与深度学习、word2vec+lstm、als算法、kmeans+spark应用+交叉特征、贝叶斯+新闻分类+saprk应用。
大数据开发需要掌握数学知识吗?
1、大数据分析需要数学及统计学基础
2、大数据开发主要学习编程技术,不需要数学基础