大数据工程师的日常工作内容是干嘛?

1277
0

筱筱的小心思 初学数据Lv2

发表于2021-9-29 16:42

楼主
“左脚刚迈入数据工程师的圈子,右脚就忍不住想往外挪”,一位刚刚成为数据工程师的行业小白跟我吐槽道。他觉得自己就跟个数据黑洞似的,领导、业务负责人有啥数据需求都丢给我,而我却只能照单全收?每天的工作都泡在数据里,满眼望去是洗不完的数据和做不完的表格!OH ON~这不是我要的生活。
如何有规划、有目标、有序的进行工作则是一枚数据老炮和数据萌新的区别所在。
言归正传,让我们来看看数据老炮们都是怎么样开展日常工作的?

一、数据工程师的工作流程

1、收集数据
数据分析师的工作第一步就是收集数据,如果是内部数据,可以用SQL进行取数,如果是要获取外部数据,数据的可靠真实性和全面性其实很难保证。在所有获取外部数据的渠道中,网络采集越来越受到大家的关注。网络采集最常用的方法是通过爬虫获取数据,相比较而言,编写爬虫程序获取到的海量数据更为真实、全面,在信息繁荣的互联网时代更为行之有效。如果是分布式系统的大数据,使用Hadoop和Apache Spark两者进行选取和清理。
可以看出,光是收集数据就要用到各种不同的计算机语言和知识了。如果一个数据分析师只会SQL取数是不够的,会逐渐被市场淘汰。因为SQL数据库无法支持大量的数据流量,无法支持SparkStreaming的实时数据采集。

2、数据清洗
数据清洗是一个非常耗时的工作,很多数据分析师有可能80%的精力都在处理清洗数据,包括字段提取、整合归一、规范化。数据在现有的商业环境中才开始逐渐重视,故数据采集整理非常重要,许多公司都在开始重视数据背后的重要价值,故会把历史数据拿出来处理加工。
数据清洗的结果质量高低也会直接关系到模型效果和最终结论。国外有些学术机构会专门研究如何做数据清洗,相关的书籍也不少。需要进行处理的数据大概分成以下几种:缺失值、重复值、异常值和数据类型有误的数据。

3、数据初加工
这里包含了数据描述性统计(比如极值,最值,均值,方差,分布),这种初步加工目的是为了大体了解这些数据的基本概况,这是初始业务必须要做的,从这些数据中一定程度上还能能够反映日常业务变况。

4、数据可视化
数据可视化是为了准确且高效、精简而全面地传递出数据带来的信息和知识。可视化能将不可见的数据现象转化为可见的图形符号,能将错综复杂、看起来没法解释和关联的数据,建立起联系和关联,发现规律和特征,获得更有商业价值的洞见和价值。在利用了合适的图表后,直截了当且清晰而直观地表达出来,实现了让数据说话的目的。人类右脑记忆图像的速度比左脑记忆抽象的文字快100万倍,这也就是为什么数据可视化能够加深和强化受众对于数据的理解和记忆。
这里会涉及到做基本报表,反映日常业务态势包含基本业务总体概况,同环比分析,并去查找业务逻辑数据表现的原因,当然里面会涉及到数据可视化图表(折线图,旋风图,散点图,柱形图)等等,诸多数据分析方法论。

5、挖掘数据价值
不同行业和领域的侧重点是不同的,可以是商业策略,也可以是市场营销,是不固定的,要依据公司的战略发展走。许多行业都是需要数据分析师的存在,像金融、制药、生物、政治、历史、经济、新闻传媒、物流、时尚、旅游、环保……对一个领域有了充分的理解和在该领域深入从事的经验,进而体现在数据分析上时,能够更好地发现并定义出实际的问题,也就可以在数据分析之后更符合行业发展规律地去改进问题并挖掘数据价值,给公司决策有所帮助。

二、数据分析师常使用的工具推荐
1、数据处理工具:Excel
数据分析师,在有些公司也会有数据产品经理、数据挖掘工程师等等。他们最初级最主要的工具就是Excel。有些公司也会涉及到像Visio,Xmind、PPT等设计图标数据分析方面的高级技巧。数据分析师是一个需要拥有较强综合能力的岗位,因此,在有些互联网公司仍然需要数据透视表演练、Vision跨职能流程图演练、Xmind项目计划导图演练、PPT高级动画技巧等。
在Excel,需要重点了解数据处理的重要技巧及函数的应用,特别是数据清理技术的应用。这项运用能对数据去伪存真,掌握数据主动权,全面掌控数据;Excel数据透视表的应用重在挖掘隐藏的数据价值,轻松整合海量数据:各种图表类型的制作技巧及Power Query、Power Pivot的应用可展现数据可视化效果,让数据说话。因此想从事数据分析岗位的,需要快速掌握快各种Excel数据处理与分析技巧。

2、数据库:MySQL
Excel如果能够玩的很转,能胜任一部分数据量不是很大的公司。但是基于Excel处理数据能力有限,如果想胜任中型的互联网公司中数据分析岗位还是比较困难。因此需要学会数据库技术,一般Mysql。你需要了解MySQL管理工具的使用以及数据库的基本操作;数据表的基本操作、MySQL的数据类型和运算符、MySQL函数、查询语句、存储过程与函数、触发程序以及视图等。比较高阶的需要学习MySQL的备份和恢复;熟悉完整的MySQL数据系统开发流程。

3、数据可视化:Tableau & Echarts & 亿信ABI
如果说前面2条是数据处理的技术,那么在如今“颜值为王”的现在,如何将数据展现得更好看,让别人更愿意看,这也是一个技术活。好比公司领导让你对某一个项目得研究成果做汇报,那么你不可能给他看单纯的数据一样,你需要让数据更直观,甚至更美观
Echarts是开源的,代码可以自己改,种类也非常丰富,这里不多做介绍,可以去创建一个工作区了解下。亿信ABI的功能相当强大,它不单单能实现数据可视化,像上述的数据分析流程,数据采集、数据清洗等基本上都能轻松拿下。目前正在免费试用中!

4、技术型分析:SPSS & Python& HiveSQL 等
如果说Excel是“轻数据处理工具”,Mysql是“中型数据处理工具”那么,大数据分析,涉及的面就非常广泛,技术点涉及的也比较多。这也就是为什么目前互联网公司年薪百万重金难求大数据分析师的原因
大数据分析需要处理海量的数据,这对于数据分析师的工作能力要求就比较高,一般来说,大数据分析师需要会
(1)会使用Hive的SQL方法HiveQL来汇总、查询和分析存储在Hadoop分布式文件系统上的大数据集合。知道Hive如何在Hadoop生态系统进行数据分析工作。
(2)会一些SPSS modeler基础应用,这部分技能对应数据建模分析师。
(3)何使用R语言进行数据集的创建和数据的管理等工作;会使用R语言数据可视化操作,让学员学会如何用R语言作图,如条形图、折线图和组合图等等;是R语言数据挖掘,本部分数据挖掘工程师。
(4)用Python来编写网络爬虫程序,从页面中抓取数据的多种方法,提取缓存中的数据,使用多个线程和进程来进行并发抓取等。



最近看过此主题的会员

baiz2180

没人知道吗

429661127

wuxing_12345

sunru

kiro

0个回答

只看楼主

登录后可回答问题,请登录注册

快速回复 返回顶部 返回列表

小时

全天响应

分钟

快速处理问题

工程师强势助力

明星产品
解决方案
联系合作

400咨询:400-0011-866

技术支持QQ:400-0011-866(工作日9:00-18:00)

产品建议邮箱yixin@esensoft.com

关注我们

扫TA学习更多干货

一对一专家交流

版权所有© 2006-2024 北京亿信华辰软件有限责任公司 京ICP备07017321号 京公网安备11010802016281号