1. 想对sql 有更深层次的学习
对于oracle,db2这些大型数据库而言,先把数据库的系统架构做个初步的了解,然后对sql应用深入了解,最后对管理进行深入研究
书籍可以先看一些入门的书,然后看高级的
2. 如何七周成为数据分析师:SQL,从入门到熟练
数据分析师职位要求 :
1、计算机、统计学、数学等相关专业本科及以上学历;
2、具有深厚的统计学、数据挖掘知识,熟悉数据仓库和数据挖掘的相关技术,能够熟练地使用SQL;
3、三年以上具有海量数据挖掘、分析相关项目实施的工作经验,参与过较完整的数据采集、整理、分析和建模工作;
4、对商业和业务逻辑敏感,熟悉传统行业数据挖掘背景、了解市场特点及用户需求,有互联网相关行业背景,有网站用户行为研究和文本挖掘经验尤佳;
5、具备良好的逻辑分析能力、组织沟通能力和团队精神;
6、富有创新精神,充满激情,乐于接受挑战。
1、态度严谨负责
严谨负责是数据分析师的必备素质之一,只有本着严谨负责的态度,才能保证数据的客观、准确。在企业里,数据分析师可以说是企业的医生,他们通过对企业运营数据的分析,为企业寻找症结及问题。一名合格的数据分析师,应具有严谨、负责的态度,保持中立立场,客观评价企业发展过程中存在的问题,为决策层提供有效的参考依据;不应受其他因素影响而更改数据,隐瞒企业存在的问题,这样做对企业发展是非常不利的,甚至会造成严重的后果。而且,对数据分析师自身来说,也是前途尽毁,从此以后所做的数据分析结果都将受到质疑,因为你已经不再是可信赖的人,在同事、领导、客户面前已经失去了信任。所以,作为一名数据分析师就必须持有严谨负责的态度,这也是最基本的职业道德。
2、好奇心强烈
好奇心人皆有之,但是作为数据分析师,这份好奇心就应该更强烈,要积极主动地发现和挖掘隐藏在数据内部的真相。在数据分析师的脑子里,应该充满着无数个“为什么”,为什么是这样的结果,为什么不是那样的结果,导致这个结果的原因是什么,为什么结果不是预期的那样等等。这一系列问题都要在进行数据分析时提出来,并且通过数据分析,给自己一个满意的答案。越是优秀的数据分析师,好奇心也越不容易满足,回答了一个问题,又会抛出一个新的问题,继续研究下去。只有拥有了这样一种刨根问底的精神,才会对数据和结论保持敏感,继而顺藤摸瓜,找出数据背后的真相。
3、逻辑思维清晰
除了一颗探索真相的好奇心,数据分析师还需要具备缜密的思维和清晰的逻辑推理能力。我记得有位大师说过:结构为王。何谓结构,结构就是我们常说的逻辑,不论说话还是写文章,都要有条理,有目的,不可眉毛胡子一把抓,不分主次。
通常从事数据分析时所面对的商业问题都是较为复杂的,我们要考虑错综复杂的成因,分析所面对的各种复杂的环境因素,并在若干发展可能性中选择一个最优的方向。这就需要我们对事实有足够的了解,同时也需要我们能真正理清问题的整体以及局部的结构,在深度思考后,理清结构中相互的逻辑关系,只有这样才能真正客观地、科学地找到商业问题的答案。
4、擅长模仿
在做数据分析时,有自己的想法固然重要,但是“前车之鉴”也是非常有必要学习的,它能帮助数据分析师迅速地成长,因此,模仿是快速提高学习成果的有效方法。这里说的模仿主要是参考他人优秀的分析思路和方法,而并不是说直接“照搬”。成功的模仿需要领会他人方法精髓,理解其分析原理,透过表面达到实质。万变不离其宗,要善于将这些精华转化为自己的知识,否则,只能是“一直在模仿,从未超越过”。
5、勇于创新
通过模仿可以借鉴他人的成功经验,但模仿的时间不宜太长,并且建议每次模仿后都要进行总结,提出可以改进的地方,甚至要有所创新。创新是一个优秀数据分析师应具备的精神,只有不断的创新,才能提高自己的分析水平,使自己站在更高的角度来分析问题,为整个研究领域乃至社会带来更多的价值。现在的分析方法和研究课题千变万化,墨守成规是无法很好地解决所面临的新问题的。
3. 数据分析的方向都有哪些
很多人都想进入数据分析这一行业,但是对数据分析的方向不是很了解,很多人都认为数据分析是需要安静下来分析数据的,不需要多么强的表达能力,其实这是不对的,数据分析工作是有很多方向的,不用的方向对人才有不同的需求,一般来说,数据分析的方向大致可以划分成四大方向,分别式数据分析,数据挖掘,数据产品,数据工程。
首先说一下数据分析这一个方向。数据分析包括数据运营和商业分析 。数据分析是业务方向的数据分析师。这是很多人都能够进入的数据分析行业,也是很多人从这个方向成为了数据分析师,在数据分析行业中,业务方向的数据分析师最多。正因为人数最多,所以这类岗位的人才质量参差不齐。有的数据分析师也只是会Excel表。当然数据分析师是一个基础岗位,如果专精于业务,更适合往管理端发展,单纯的工具和技巧很难拉开差距。数据分析的管理岗,比较常见的有数据运营经理和总监,数据分析经理等,相对应的能力是能建立指标体系,并且解决日常的各类问题。
第二说一下数据挖掘,数据挖掘是技术方向的数据分析师岗位,有些归类在研发部门,有些则单独成立数据部门。数据挖掘工程师需要很多的数据分析技能,具体体现在数据挖掘工程师要求更高的统计学能力、数理能力以及编程技巧。数据挖掘工程师,除了掌握算法,同样需要编程能力去实现,不论R、Python、Scala/Java,至少掌握一种。但是数据挖掘工程师必须精通SQL。
然后说一下数据产品经理。大家都会觉得数据产品经理这个岗位比较新兴,具体就是公司数据产品的规划者。是真正意义上的数据产品经理。就目前而言,数据量与日俱增,此时会有不少数据相关的产品项目。这些当然也是产品,自然需要提炼需求、设计、规划、项目排期,乃至落地。从职业发展上看,数据分析师做数据产品经理更合适。普通的产品经理,对前端、后端的技术栈尚未熟悉,何况日新月异的数据栈。这个岗位尤其适合对数据特别感兴趣的人。
最后说一下数据工程师,数据工程师是一个不错的发展方向,因为数据挖掘需要了解算法/模型,理论知识要求过高,自己学习不容易突破自己。选择更底层的工程实现和架构,也是出路,薪资也不会低于数据挖掘/算法专家。数据工程师,可以从数据分析师的SQL技能,往数据的底层收集、存储、计算、运维拓展。往后发展则是数据总监、或者数据架构师。
以上的内容就是小编为大家讲解的数据分析行业的具体的发展方向了,大家在选择数据分析行业的时候一定要好好的分析自己究竟适合哪一个职业,只有找到自己适合的职业,才能够一直有成就感,从而能够更深入的学习。如果不适合,那么除了浪费时间,还带来了挫败感。
4. 请问如果想要从事数据分析工作,应该要学习哪些内容呢
想从事数据分析,就要学一些大数据知识,不是只学一个软件就行的,要会一些基本编程,比如Python语言等等,机器学习,深度学习相关的内容。
以前大数据分析会用到多种工具,比如数仓工具、数据建模工具、BI工具等等。现在新一代的大数据分析平台,都是一站式的数据分析平台,一个平台搞定所有。
5. 大数据分析的8大趋势
大数据分析的8大趋势
大数据和分析学等学科发展十分迅速,因此企业必须努力跟上,否则就有被甩掉的危险。”他还说:“过去,新兴技术往往需要十年左右的时间才能够成熟,但是现在大大不同了,人们几个月甚至几周时间就能想出解决方案。”那么,有哪些新兴技术是我们应该关注,或者说科研人员正在重点研究的呢?《电脑世界》采访了一些IT精英、咨询师和行业分析专家,来看看他们列出的几大趋势吧。
1.云端大数据分析
Hadoop是一组有一定框架结构的工具,用来处理大型数据组。它原本用于机器群,但现在情况有所变化。Forrester Research一位分析师BrianHopkins表示,现在有越来越多的技术可以运用到云端数据处理上来了。比如亚马逊的BI数据库、Google的 BigQuery数据分析服务,、IBM’sBluemix 云平台和亚马逊的Kinesis数据处理服务。这位分析师还说,未来的大数据将是内部数据部署与云端数据的结合体。
Smarter Remarketer是SaaS零售分析、市场细分和营销服务的供应商,它最近将自己室内的Hadoop和MongoDB数据库基础设施转移到了一个基于云技术的数据库—Amazon Redshift. 这家位于印第安纳波利斯的公司收集线上和实体销售数据、顾客信息和实时行为数据,之后进行分析,从而帮助零售商做出针对消费者的决策,有些决策甚至是实时的。
Abbott表示,Redshift可以节省这家公司的成本,这是因为它对于结构数据拥有强大的汇总报告功能,而且它颇具规模,使用起来相对容易。用这些虚拟设备总是要比那些实体设备便宜一些。
相比之下,位于加州山景城的Intuit在走向云分析的过程中就要谨慎多了,因为它需要一个安全、稳定、可控的环境。目前为止,这家金融软件公司的数据都还在自家的数据库—Intuit Analytics Cloud里面。Loconzolo表示:“目前我们正跟亚马逊还有Cloudera合作,建立一个我们几家公司公用的能跨越虚拟、现实两个世界的、具有高度稳定性的云端,但是现在这个问题还没有得到解决。”然而,可以说,对于像Intuit这种销售云端产品的公司来说,向云端技术进军是必然的。Loconzolo还说道,未来我们会发展到一个阶段,那时把数据放在私有云端将是浪费的。
2. Hadoop:一个新的企业数据运行系统
Hopkins表示,向MapRece这样的分布式分析框架,正在逐渐演化成分布式资源管理器,这些资源管理器正逐步将Hadoop变为多用途数据运行系统。“有了这些系统,你就可以进行多种多样的操作和分析。”
这对企业来说意味着什么呢?SQL、MapRece、in-memory、流水式处理、图表分析还有其它工作都能在Hadoop上进行,越来越多的企业会把Hadoop当做企业数据中心。Hopkins还说:“在Hadoop上能进行各种各样的数据处理工作,这样的话,Hadoop会慢慢变成一个多用途的数据处理系统。”
Intuit已经开始在Hadoop建立自己的数据基地了。Loconzolo说:“我们的策略是利用Hadoop分布式文件系统,因为它和MapRece与Hadoop等联系十分密切,这样的话,人与产品之间的各种互动就可以实现了。
3.大数据湖泊
美国普华永道首席技术专家Chris Curran说,传统数据库理论认为,人们应该先设计数据集,然后再将数据输入进去。而“数据湖泊“,也被称作“企业数据湖泊”或者“企业数据中心”,颠覆了这个理念。“现在,我们先收集数据,然后把它们都存入Hadoop仓库里,我们不必事先设计数据模型了。”这个数据湖泊不仅为人们提供了分析数据的工具,而且很明确地告诉你,这里有什么样的数据。Curran还表示,运用Hadoop的过程中人们就可以增加对数据的认识。这是一个递增的、有机的大规模数据库。当然,这样一来,对使用者的技术要求相应地会比较高。
Loconzolo表示,Intuit拥有自己的数据湖泊,这个数据湖里既有用户点击量的数据,也有企业和第三方的数据,所有这些都是Intuit分析云端的一部分,但关键是要让围绕这个数据湖的工具能够为人们有效利用起来。Loconzolo还说,对于在Hadoop建立数据湖,一个需要考虑的问题是,这个平台并没有完完全全的为企业的需求设置周全。“我们还需要传统企业数据库已经有了几十年的一些功能,比如监控访问控制、加密、安全性以及能够从源头到去向地追踪数据等等。
4.更多预测分析
Hopkins表示,有了大数据,分析师们不仅有了更多的数据可以利用,也拥有了更强大的处理打量不同属性数据的能力。
他说:“传统的机器学习利用的数据分析是建立在一个大数据集中的一个样本基础上的,而现在,我们拥有了处理了大量数字记录的能力,甚至于每条数据有多种不同属性,我们都应对自如。”
大数据与计算功能的结合也让分析师们能够挖掘人们一天中的行为数据,好比他们访问的网站或者是去过的地方。Hopkins把这些数据称作“稀少数据(sparsedata)”,因为要想得到这些你感兴趣的数据,必须过滤掉一大堆无关的数据。“要想用传统机器算法对抗这种数据,从计算角度来讲几乎不可能。因为计算能力是一个十分重要的问题,特别是现在传统算法的速度和记忆储存能力退化很快。而现在你可以很容易知道哪些数据是最容易分析的,不得不说,赛场易主了。”
Loconzolo表示:“我们最感兴趣的地方是,怎样在同一个Hadoop内核中既能作实时分析,又能做预测模型。这里最大的问题在于速度。Hadoop花费的时间要比现有技术长20倍,所以Intuit也在尝试另一个大规模数据处理器Apache Spark及其配套的 Spark SQL查询工具。Loconzolo说:“Spark具有快速查询、制表服务和分组功能。它能在把数据保留在Hadoop内部的前提下,还将数据处理得十分出色。”
5.Hadoop的结构化查询语言(SQR, StructuredQuery Language):更快,更好
Gartner一位分析师表示,如果你是个不错的编码员或者数学家,你可以把数据丢进Hadoop,想做什么分析就做什么分析,这是好处,但同时这也是个问题。“尽管任何程序语言都行得通,但我需要有人把这些数据用我熟悉的形式或者语言输入进去,这也是为什么我们需要Hadoop的结构化查询语言。支持与SQR类似的查询语言的工具,让那些懂得SQR的企业使用者们能把类似的技术运用在数据上。Hopkins认为,Hadoop的SQR打开了企业通往Hadoop的大门,因为有了SQR,企业不需要在那些能使用Java, JavaScript 和Python高端数据和商业分析师上投资了,而这些投资在以前可是少不了的一笔开销。
这些工具也并非最近才出现的了。Apache Hive曾经为用户提供了一种适用于Hadoop、类似于SQR的查询语言,但是竞争对手Cloudera、PivotalSoftware、IBM还有其他销售商提供的产品不仅性能更好,速度也更快。这项技术也适合“迭代分析(iterative analytics)”,也就是说,分析师先问一个问题,得到回答之后再问下一个问题。而这种工作放在过去可是需要建立一个数据库的。Hopkins说:“Hadoop的SQR并不是为了取代数据库,最起码短期不会,但对于某些分析来说,它让我们知道,除了那些高成本的软件和应用之外,还有别的选择。”
6.不仅仅是SQR(NoSQL,NotOnly SQR)—更快,更好
Curran表示,现在我们除了基于SQR的传统的数据库之外,还有NoSQL,这个数据库能用于特定目的的分析,当下十分热门,而且估计会越来越受欢迎。他粗略估计目前大概有15-20个类似的开放资源NoSQL,每一个都独具特色。比如ArangoDB,这是一款具备图标分析功能的产品,能更快、更直接地分析顾客与销售人员之间的关系网。
Curran还说,开放资源的NoSQL数据库已经存在一段时间了,但是他们依然势头不减,因为人们需要它们所做的分析。一位在某个新兴市场的普华永道客户把传感器按在了店面柜台上,这样就能监控到那里到底有什么产品,顾客会摆弄这些产品多长时间以及人们会在柜台前站多久。“传感器会产生大量类似指数增长的数据,NoSQL将是未来的一个发展方向,因为它可以针对特定目的进行数据分析,性能好,而且很轻巧。”
7.深度学习
Hopkins认为,作为一种基于神经网络的机械学习技术,虽然还在发展过程中,但在解决问题方面却已经表现出巨大的潜力。“深度学习……能够让计算机在大量非结构化和二进制的数据中识别出有用信息,而且它能够在不需要特殊模型和程序指令的前提下就剔除那些不必要的关系。”
举个例子说明:一个深度学习的算法通过维基网络了解到加利福尼亚和德克萨斯是美国的两个州。“我们不在需要通过模式化让程序去理解州和国家的概念,这就是原来的机械学习和新兴深度学习的区别之一。”
Hopkins还说道:“大数据运用先进的分析技术,例如深度分析,来处理各种各样的非结构文本,这些处理问题的思路和方式,我们也是现在才开始理解。”比如,深度学习可以用来识别各种各样不同的数据,比如形状、颜色和录像中的物体,甚至是图片中的猫—谷歌建立的神经网络就做到了这一点。“这项技术所昭示的认知理念、先进的分析,将是未来的一个趋势。”
8.内存中分析
Beyer表示,利用内存中数据库来提升分析处理速度,这种方式已经越来越广泛,而且只要运用得当,益处也很多。事实上,很多企业现在已经在利用HTAP(hybridtransaction/analytical processing)了,这种处理方式能在同一个内存数据库中进行转换和分析处理。但Beyer同时也表示,对于HTAP的宣传有些过头了,很多公司也过度利用这项技术。对于那些使用者需要每天多次以同样的方式看同样数据的系统来说,这样的数据没有太大变化,这时用内存中分析就是一种浪费了。
虽然有了HTAP的帮助,人们分析速度更快了,但是,所有的转换都必须储存在同一个数据库里。Beyer认为,这样的特点就产生了一个问题,分析师们目前的工作主要是把不同地方的数据汇总输入到同一个数据库当中去。“如果你想做任何分析都运用HTAP,所有的数据就得存在同一个地方。要把多样化的数据进行整合。”
然而,引入内存数据库的同时也意味着,还有另一个产品等着我们去管理、维护、整合与权衡。
对于Intuit而言,他们已经在使用Spark了,所以对引进内存数据库的愿望并没有那么强烈。Loconzolo说:“如果我们用Spark就能处理70%的问题,而用内存数据库可以解决100%,那么我们还会选择前者。所以我们现在也在权衡,要不要马上停用内部的内存数据系统。”
大步向前迈
在大数据和分析领域有这么多的新兴趋势,IT组织应该创造条件,让分析师和数据专家们大显身手。Curran认为:“我们需要评估、整合一些技术,从而把它们运用到商业领域中去。”
6. 关于SQL注入。
我还没进公司时,网站平均15天被注入一次,我进公司以后,大力整改,至今3个月,未见被注入。
我告诉你我的方法。
总结起来就是:关键词屏蔽或替换 + 参数法sql。
1.封装一个类,用来将传入的参数进行关键词的屏蔽和替换(像ID之类的参数,可以屏蔽关键词的就完全屏蔽,像textarea这样不能完全屏蔽的,就把关键词替换,如将半角的'替换成全角’。还要限制参数的字数(很重要)
2.将所有需要和数据库打交道的地方全部进行参数化sql。
如将sql="select * from table where id='"+value+"'"
改sql="select * from table where id=@id"
写一个类,里面专门存放参数法sql的各种方法,虽然会麻烦一些,但是非常非常有效,可以杜绝绝大多数sql注入。
这样,双管其下,基本可以防止sql注入了
7. 学哪一种SQL比较好
sql的意思是标准查询语言,所以你学哪一种其实都差不多,虽然不同的数据库都对sql做了扩展,但是基本的东西还是相同的
8. 数据分析需要掌握些什么知识
CPDA数据分析师师兄告诉你,数据分析师需要掌握的知识,可以划分如下
1.初级分析师初级分析师是数据人员架构的基础组成部分,承担了数据工作中大多数最基础的工作,通常初级分析师的人员比例不应超过20%。初级分析师的定位是数据整理、数据统计和基本数据输出工作,服务的对象包括中、高级分析师和业务方等,对其素质的要求侧重于基本数据技能和业务常识。
•数据工具要求。基本的Excel操作能力和SQL取数能力、与工作相关工具的使用技能,顺利完成数据抽取和整理等工作;基本数据输出能力,包括PPT、邮件、Word等使用能力。
•数据知识要求。理解日常数据体系内涉及的维度、指标、模型,辅助中、高级分析师进行专项工作并承担其中的部分工作。
•业务知识要求。理解基本业务知识,能把业务场景和业务需求分别用数据转换和表达出来。
2.中级分析师中级分析师是数据人员架构中的主干。中级分析师承担着公司的专项数据分析工作,如各业务节点的项目类分析、专题报告等。通常中级分析师的人员比例在40%~60%之间。中级分析师的定位是数据价值挖掘、提炼和数据沟通落地,服务的对象主要是业务方,除此之外还可能参与高级分析师的大型项目并独立承担其中的某个环节。因此要求中级分析师对专项数据技能、业务理解及推动能力的要求较高。
•数据工具要求。熟练使用数据挖掘工具、网站分析工具。
•数据知识要求。了解不同算法和模型的差异点及最佳实践场景,根据工作需求应用最佳的实践方案。
•业务知识要求。深度理解业务知识,具有较强的数据解读和应用推动能力。
3.高级分析师高级分析师职位通常是数据职能架构中的火车头,承担了企业数据方向的领导职能。高级分析师的人员比例在20%~40%之间。高级分析师的定位是企业数据工作方向规则体系建设、流程建设、制度建设等,服务对象通常是业务及企业领导层。因此要求其除了要具备中级分析师的基本能力外,还需要具备宏观规划、时间把控、风险管理、效果管理、成本管理等项目管理能力。
•高级分析师需要能搭建企业数据体系,并根据企业发展阶段提出适合当前需求的数据职能和技术架构方案。 •高级分析师需要规划出所负责领域内数据工作方向、内容、排期、投入、产出等,并根据实际工作进行投入与产出分析,同时做好数据风险管理。
•高级分析师需要实时跟进项目的进度,监督数据项目落地执行,并通过会议、汇报、总结、阶段性目标、KPI等形式做好过程控制和结果控制。低、中、高级不同职位层次数据分析师的能力要求如图所示。注意,图像越向外代表对其相应能力的要求越高,反之则要求越低。