⑴ 什么是ETL这个职业怎么样前景如何
随着信息技术爆炸性发展,智能终端,智能穿戴设备,无人驾驶汽车等等,都宣告大数据的时代已经来临!学习成长为一名处理数据的BI工程师是实现梦想的绝佳途径!
如何入门呢?首先要有数据库基础,选择一门主流的数据库(ORACLE,DB2,SQLSERVER)学习基本的SQL开发,掌握存储过程,函数,包,SQL调优等。其次就要会一个主流的BI工具,常见后台ETL工具如:DATASTAGE,INFORMATICA,KETTLE等,主流前台报表工具如BIEE,COGNOS,BO,当然也有国产的像润干等。之后就是要了解BI中常用的概念如:事实表,维表,切片,上钻下取,缓慢变化维,代理键等。
要
熟练掌握这些工具,就要在项目中去大量的练习啦,只有通过项目的实践才能深刻体会BI的这些概念及其精髓。之后有了几年的经验就可以向某个行业去深入学习
业务知识做ETL顾问,或者向数据挖掘方向深究!这个过程自学的话要很久,要想在很短的时间入门,找家有实力的机构去通过项目实践就很有必要啦。国内专注
这块的有深圳的融通学苑,北京的思数,你可根据自身情况作出选择。
⑵ etl是什么
ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。ETL一词较常用在数据仓库,但其对象并不限于数据仓库。
数据仓库是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。 为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。
ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据, ETL是BI(商业智能)项目重要的一个环节。
(2)干etl需要会前端知识吗扩展阅读:
ETL与ELT:
ETL所描述的过程,一般常见的作法包含ETL或是ELT(Extract-Load-Transform),并且混合使用。通常愈大量的数据、复杂的转换逻辑、目的端为较强运算能力的数据库,愈偏向使用ELT,以便运用目的端数据库的平行处理能力。
ETL(orELT)的流程可以用任何的编程语言去开发完成,由于ETL是极为复杂的过程,而手写程序不易管理,有愈来愈多的企业采用工具协助ETL的开发,并运用其内置的metadata功能来存储来源与目的的对应(mapping)以及转换规则。
工具可以提供较强大的连接功能(connectivity)来连接来源端及目的端,开发人员不用去熟悉各种相异的平台及数据的结构,亦能进行开发。当然,为了这些好处,付出的代价便是金钱。
⑶ 数据仓库ETL工程师
初级ETL一般有SQL基础就OK,在招聘网站上大胆投简历就行了
新人肯定会有过渡阶段,通常的公司都会安排人来带,这点无需多虑
若有其他疑问可追问
⑷ 本人对ETL十分感兴趣,但是现在的工作跟这无关,最大的联系也就是SQL了,如果想转行做ETL要学习什么
首先,你会SQL就是学BI和ETL技术的基础,恭喜你!
就这个行业来说,一般分前台开发和后台报表两种(当然比较深入的还有数据挖掘,属于高级应用不适合初学者)。前台开发就是你想学的ETL(抽取,转换,装载)技术,它既可以用写程序的方式如:写SQL程序;也可以用工具如: Kettle(开源的), DataStage ,Informatica 等来实现。其实这些ETL工具本身也是对SQL语句的图形化而已,没什么很深的,不过除了KETTLE是开源的,后两者一般用户很难接触到,毕竟这些工具都是动辄几十万上百万的。前台报表开发如:cognos,biee等等,比较简单,对基础要求相对低点。国内专注这块的有:深圳的 融通学苑,北京的导成科技等。这样说不知能否帮到你!
⑸ ETL工程师是做什么的
ETL工程师又叫数据库工程师。
ETL工程师的主要工作内容有:从事系统编程、数据库编程与设计。ETL是数据仓库中的非常重要的一环。它是承前启后的必要的一步。相对于关系数据库,数据仓库技术没有严格的数学理论基础,它更面向实际工程应用。
所以从工程应用的角度来考虑,按着物理数据模型的要求加载数据并对数据进行一些系列处理,处理过程与经验直接相关,同时这部分的工作直接关系数据仓库中数据的质量,从而影响到联机分析处理和数据挖掘的结果的质量。
职业前景
从业务角度讲,随着数据应用的日益丰富,不同平台、系统的相互大批量数据交互成常态,仅仅满足于采集数据已经不适应业务需要,还需要能够为数据的目的端落地提供支撑,ETL工程师需要一个端到端的更适应业务需要的数据交换系统。
从技术角度讲,ETL做一定的扩展可以升级为兼具交换能力,两者有传承,可以实现平滑过渡,但交换却要考虑用另一个工具实现,同时未来大数据平台组件将异常丰富,相互之间的数据交换将是常态,必要要有更高级别的交换工具满足这些需求。
⑹ ETL框架搭建需要哪些团队人员
组建一个B2C网站团队需要以下技术人员: 1、程序员,负责程序设计开发; 2、前端人员,负责网站布局、页面设计; 3、数据分析人员:负责数据的搜集、整理、分析。 4、推广技术人员:分seo、sem、外链等技术人员。 5、运营策划人员
⑺ 搞ETL开发,要会些什么啊
肯定要懂数据库,ETL主要是写存储过程,还要懂一些linux命令。
⑻ etl工程师是做什么的工作内容是什么
etl工程师是从事系统编程、数据库编程与设计,要掌握各种常用的编程语言的专业技术人员。也叫数据库工程师。
工作内容:
见岗位职责:
1. 海量数据的ETL开发,抽取成各种数据需求。
2. 参与数据仓库架构的设计及开发 。
3. 参与数据仓库ETL流程优化及解决ETL相关技术问题。
4、熟悉主流数据库技术,如oracle、Sql server、PostgeSQL等。
4、精通etl架构,有一定的etl开发经验,了解日常作业的部署和调度。
5、会数据etl开发工具,如Datastage,Congos,Kettle等。
⑼ ETL基本常识是什么
对于做过 BI 开发的朋友,ETL 并不陌生,只要涉及到数据源的数据抽取、数据的计算和处理过程的开发,都是 ETL,ETL 就这三个阶段,Extraction 抽取,Transformation 转换,Loading 加载。
从不同数据源抽取数据 EXTRACTION ,按照一定的数据处理规则对数据进行加工和格式转换 TRASFORMATION,最后处理完成的输出到目标数据表中也有可能是文件等等,这个就是 LOADING。
再通俗一点讲,ETL 的过程就跟大家日常做菜一样,需要到菜市场的各个摊位买好菜,把菜买回来要摘一下,洗一洗,切一切最后下锅把菜炒好端到饭桌上。菜市场的各个摊位就是数据源,做好的菜就是最终的输出结果,中间的所有过程像摘菜、洗菜、切菜、做菜就是转换。
在开发的时候,大部分时候会通过 ETL 工具去实现,比如常用的像 KETTLE、PENTAHO、IBM DATASTAGE、INFORNAICA、微软 SQL SERVER 里面的 SSIS 等等,在结合基本的 SQL 来实现整个 ETL 过程。
也有的是自己通过程序开发,然后控制一些数据处理脚本跑批,基本上就是程序加 SQL 实现。
哪种方式更好,也是需要看使用场景和开发人员对那种方式使用的更加得心应手。我看大部分软件程序开发人员出身的,碰到数据类项目会比较喜欢用程序控制跑批,这是程序思维的自然延续。纯 BI 开发人员大部分自然就选择成熟的 ETL 工具来开发,当然也有一上来就写程序脚本的,这类 BI 开发人员的师傅基本上是程序人员转过来的。
用程序的好处就是适配性强,可扩展性强,可以集成或拆解到到任何的程序处理过程中,有的时候使用程序开发效率更高。难就难在对维护人员有一定的技术要求,经验转移和可复制性不够。
用 ETL 工具的好处,第一是整个 ETL 的开发过程可视化了,特别是在数据处理流程的分层设计中可以很清晰的管理。第二是链接到不同数据源的时候,各种数据源、数据库的链接协议已经内置了,直接配置就可以,不需要再去写程序去实现。第三是各种转换控件基本上拖拉拽就可以使用,起到简化的代替一部分 SQL 的开发,不需要写代码去实现。第四是可以非常灵活的设计各种 ETL 调度规则,高度配置化,这个也不需要写代码实现。
所以在大多数通用的项目中,在项目上使用 ETL 标准组件开发会比较多一些。
ETL 从逻辑上一般可以分为两层,控制流和数据流,这也是很多 ETL 工具设计的理念,不同的 ETL 工具可能叫法不同。
控制流就是控制每一个数据流与数据流处理的先后流程,一个控制流可以包含多个数据流。比如在数据仓库开发过程中,第一层的处理是ODS层或者Staging 层的开发,第二层是 DIMENSION维度层的开发,后面几层就是DW 事实层、DM数据集市层的开发。通过ETL的调度管理就可以让这几层串联起来形成一个完整的数据处理流程。
数据流就是具体的从源数据到目标数据表的数据转换过程,所以也有 ETL 工具把数据流叫做转换。在数据流的开发设计过程中主要就是三个环节,目标数据表的链接,这两个直接通过 ETL 控件配置就可以了。中间转换的环节,这个时候就可能有很多的选择了,调 SQL 语句、存储过程,或者还是使用 ETL 控件来实现。
有的项目上习惯使用 ETL 控件来实现数据流中的转换,也有的项目要求不使用标准的转换组件使用存储过程来调用。也有的是因为数据仓库本身这个数据库不支持存储过程就只能通过标准的SQL来实现。
我们通常讲的BI数据架构师其实指的就是ETL的架构设计,这是整个BI项目中非常核心的一层技术实现,数据处理、数据清洗和建模都是在ETL中去实现。一个好的ETL架构设计可以同时支撑上百个包就是控制流,每一个控制流下可能又有上百个数据流的处理过程。之前写过一篇技术文章,大家可以搜索下关键字 BIWORK ETL 应该在网上还能找到到这篇文章。这种框架设计不仅仅是ETL框架架构上的设计,还有很深的ETL项目管理和规范性控制器思想,包括后期的运维,基于BI的BI分析,ETL的性能调优都会在这些框架中得到体现。因为大的BI项目可能同时需要几十人来开发ETL,框架的顶层设计就很重要。