❶ 学习数据挖掘一般要学哪些软件和工具
1.数据挖掘基本知识
这一部分主要是看书,先了解一个情况。至于用什么书。口碑比较好的有《数据挖掘:概念与技术(第3版)》。我买了,看了一大半,感觉不太适合初学者。有些概念直接给出,对于底子不好的人有些突兀,要是硬着头皮使劲看,还是很有收获的,适合入门以后反复看。推荐一本很老的书《数据仓库与数据挖掘》。这本书相对来说不那么厚,很多基础概念也有论述,对初学者来说很友好。
这一部分的学习是贯穿始终的,有经验的前辈们介绍,什么时候拿出来看看都是有收获的。
2.数学基础
这一部分也是不可或缺的,学一下未必能有感受。学好了,绝对收益无穷。我的计划是穿插在整个学习过程中。主要内容是:线性代数、离散数学。
(1)线性代数
已经学过的,没学过的都要认真学一下。国内的教材个人以为对概念没有深入说透。比如特征值和特征向量,到底干嘛用的。矩阵的乘法本质意义,也没说清楚。
(2)离散数学
这个大部分人(不是专业的)都没学过,听着就头痛。别急,不用全学,重点是图论、代数系统、命题(谓词和逻辑)、集合与关系。随便找一本薄一点的教材。这些内容其实之前高中本科都有接触,主要是一些逻辑符号,思维方式需要看懂。否则在一些地方看到一些莫名其妙的符号,不了解,看到一些简单的公式以为很复杂,得不偿失。
(3)运筹学
这个绝对是基础课,之所以放在后面是因为本人认真学了。推荐的教材《运筹学》教材编写组编写。一本大厚绿皮书。对策论等跟博弈论有关的不用看。有条件的可以把算法在跑一遍。绝对收获良多。
3.工具
这部分本人在网上查了很久,课题组问了几百遍。最终确认的这几个。很多人说有编程经验的人,学一个就一两周的事,无奈,我零基础。所以,这一部分绝对是个重点。先说本人确定的语言:MATLAB、Python、R。
(1)MATLAB
先说MATLAB,别说这个老,别说这个是学校搞学术才用的。不想挑起争论,主要理由——好上手。上手以后就可以跑一些算法,提高一些信心和学习的乐趣。教材我随便找一本厚厚的备查(从来没翻过)。我主要看的是官方手册的Primer。然后就开始写脚本和函数,如果有看不懂的直接网络、google或者help。写的都很清楚。这一部分主要是迅速上手,我已经略有收获了。
(2)Python和R
这两个放在一起,是因为网上关于这两个的争论太多了。本人也无数次迷失过。不争论优劣,确实是各有优势。我的顺序是首先学python,立志以这个作为自己的主要程序。其次再是R,从画图入手。R画出来的图真是好看。至于学习的思路:先找一本入门的书,越简单越好,学完之后找一本手册,然后练习。
首先python,先看《Head First Python》。挺好的。简单易懂,网上竟然还能下载到英文的PDF。然后是《利用Python进行数据分析》和《机器学习实战》。第一本书主要是利用Python做数据挖掘的,基本提到Python学习都会推荐这本。第二本是理解机器学习的佳作,书中用到的语言就是Python。一边学语言,一边理解机器学习。很好的顺序。
其次R,因为有了前面的一部分基础,学起来会容易一些。主要推荐教材是《R语言初学者指南》和《R语言实战》。这部分的学习我准备跳着看,早期主要利用R来画图。然后步步深入着学习。这样才能充分的练习,而不仅仅是纸上谈兵。
(3)Mysql
最后加一个,了解一点Mysql,由于零基础对数据的各种都不了解,强烈推荐一周读完《深入浅出Mysql》。难度不大,主要是入门。如果以后用得着,再深入研究。
再次重申一遍:这一阶段还是要找程序写。如果有工作或者项目,直接上,学的最快。如果没有,找篇不错的,感兴趣的博士论文,跑一遍里边的程序。这部分内容不是学出来的,绝对练出来的。
4.算法
算法太多了,常见的就那些。一方面要看明白,理解算法。另一方面用上面的语言跑出来。既能理解算法,也能很好的熟悉语言。
总结
整个入门阶段,千万不要抱着学完一个在学一个的思想。同时学!比如,语言入门了,就找算法实践。看到一个算法,一定要程序跑出来。中间累了,把数学基础补一补。
❷ 只有c语言知识 现在想往数据挖掘和云计算方向发展 需要学习什么
你可以先学一下C++,顺带学一下MFC。然后学一下JAVA,把主流语言学一下,保证后续学习开发无忧。然后学习互联网知识和Linux编程,有空最好研究一下分布式操作系统。望采纳
❸ 做数据挖掘和机器学习的话学c语言的数据结构还是Java的数据结构
数据结构是表达计算机存储、组织数据的方式。比如数组和列表,他们的构成就不一样,因此会各有适用的情况。C和JAVA只是不同的编程语言,编程语言主要的作用是用于对事情的描述。因此两种关系不大。既然前期看的c语言的数据结构,建议继续看c的,编译理解。我就是适用java语言,而学习的c语言的数据结构。望采纳。
❹ 实现数据挖掘算法用什么语言比较方便
看你想做的是什么。如果是核心技术实现的,推荐C语言;
如果是应用实现,那就捡开发最快,最多人用的就好。
❺ 数据挖掘工程师必须会C/JAVA语言编程吗只会MATLAB可以吗
我现在在做数据挖掘 但是数据挖掘分很多方面
我现在做的是用C语言编写的数据挖掘软件,但一般的数据挖掘工程师(我以前的工作),都是用spss SAS weka(用java编写的开源的数据挖掘软件,我老师推荐给我的,很强大)进行数据挖掘。
如果想成为一个厉害的数据挖掘工程师:
必须掌握:
机器学习,数据库,统计学,科学计算(这个是基础)
软件:
SPSS SAS 其实一般数据挖掘不用MATLAB mathmatical 软件会可能更好
要掌握C语言,JAVA语言处理不是很好
反正这是一个非常复杂的职位,是计算机 统计学 管理科学的交叉学科,这三方面都要会。
❻ 学习数据挖掘需要那些基础知识
入门推荐你看《机器学习实战》,不需要你跑去学习算法和数据结构,不需要解析几何的知识,但是数理统计的基础你必须要有,期望、方差、常用的几种概率分布,尤其注意一下条件概率,因为朴素贝叶斯模型你一定要懂,线性代数至少你要明白矩阵乘法、行列式计算,再就是微积分知识,不然你看不懂所有基于梯度下降法的文献,行业内用的比较多的是c++,java和python,推荐你用python,很多模型不需要你造轮子,python有相关的第三方模块,很方便。
数据挖掘涉及的内容比较泛,机器学习、数据挖掘、人工智能,但实际上这些知识大多是相通的,机器学习实战这本书是我看的启蒙书里很好的一本了,该有的都有,难度较小,有理论有实践,可以较快的对各种知识有个大概的了解,但是想要长期在这个行业发展,还需要学习更多的知识,比如说提到回归模型,你不仅仅要知道最小二乘法,你还要想到怎么进行数据清洗、哪些数据需要清洗,怎么规范数据,数据是否过多,要不要进行归约和降维,采用哪种回归模型,精确度大致要达到什么水平,要不要考虑过拟合和欠拟合,要不要进行交叉验证,几折交叉验证效果好,如果回归模型不适用,有哪些备选方案。比如说决策树模型,书上简单的讲了个if-then就完了,按照什么规则生成树,怎么分层,要不要剪枝,最终的效果怎么样,造成误差的原因是模型太复杂还是太简单,怎么综合其他模型对决策树进行改进,数据的聚类方法用k均值还是DBSCAN,需要对数据进行分类的时候要考虑数据量大不大,SVM还是神经网络,数据量计算机吃不吃得消,一次吃不消该怎么做,等你对这些有了大致的了解之后,好好看看《统计学习方法》这本书,深入地了解一下理论部分,看一看核心部分的数学模型,看一看如何算法实现,着重理解一下拉格朗日微分法和拉格朗日对偶,解决等式约束和不等式约束很有用,这个也是使用智能算法尝试解决NP完全问题的一个结合点。
除了看书以外,其他时间全部用在学习编程上,python常用的numpy、matplotlib、scipy、sklearn、nltk这些包你都要大致了解怎么用,推荐你看看图灵程序设计丛书里的《python学习手册》《python自然语言处理》《python科学计算》,至少要知道怎么定义类、方法、属性,常用模块里有哪些好用的方法,常见的异常怎么排除,其他的在有时间的时候随用随学,至于算法和数据结构,有时间的话看看《算法导论》,肯定有所收获。
至于说书单就上豆瓣搜一搜,评分高的一般都比较靠谱,英文版的也比较靠谱
❼ 学数据分析与数据挖掘用什么技术
数据分析和数据挖掘所需技术侧重点不一样。
数据分析偏向于业务,需熟练运用spss、r、python、sas、Excel、数据库、数据建模等相关数据分析工具,熟练一些商业知识架构,会将各项数据结合起来发现企业经营过程中的业务问题,从而为企业解决问题。数据分析技术有 数据仓库技术; 数据库技术; Hadoop等衍生系统技术;数据挖掘技术;自然语言处理技术; 社交网路分析技术; 信息检索技术; 云计算技术; No-SQL技术; 数据可视化技术。数据挖掘偏重于算法,基础是要会 c语言,python 或 R 语言是必须会的, java 或者 C++ 最好也会, 还会涉及spark, hadoop ,所以数据挖掘对编程的要求高一点, 有些公司职位还要求会 sql,数据挖掘技术有:决策树技术;神经网络技术;回归分析技术;关联规则技术;聚类分析技术;贝叶斯分类技术。
如果说想要提升数据分析和数据挖掘的能力,这里推荐CDA数据分析师的相关课程,教你用可落地、易操作的数据科学思维和技术模板构建出优秀模型;只教实用干货,以专精技术能力提升业务效果与效率;课程中安排了Sklearn/LightGBM、Tensorflow/PyTorch、Transformer等工具的应用实现,并根据输出的结果分析业务需求,为进行合理、有效的策略优化提供数据支。撑点击预约免费试听课。
❽ 不会写代码,怎么做数据挖掘
提供三种办法:
1.在网上找找《南开100题》C语言版,仔细研究,反复研究,直到看到题就想起代码。
2.把以前C语言的课本找出来,做熟每一道习题。
3.找资料学习PASCAL语言,PASCAL功能强大,语言风格严谨,对于培养严密的思维、逻辑能力有好处。
数据挖掘目前在中国尚未流行开来,犹如屠龙之技。数据初期的准备通常占整个数据挖掘项目工作量的70%左右。 数据挖掘本身融合了统计学、数据库和机器学习等学科,并不是新的技术。数据挖掘技术更适合业务人员学习(相比技术人员学习业务来的更高效)数据挖掘适用于传统的BI(报表、OLAP等)无法支持的领域。 数据挖掘项目通常需要重复一些毫无技术含量的工作。
想要了解更多有关数据挖掘的信息,可以了解一下CDA数据分析师的课程。课程内容兼顾培养解决数据挖掘流程问题的横向能力以及解决数据挖掘算法问题的纵向能力。要求学生具备从数据治理根源出发的思维,通过数字化工作方法来探查业务问题,通过近因分析、宏观根因分析等手段,再选择业务流程优化工具还是算法工具,而非“遇到问题调算法包”,提供决策的新型数据分析人才。点击预约免费试听课。
❾ 学了c语言能做什么,找什么工作
这个是我在另一个问题的回答,那个是问java的,不过答案对c同样适用。
现在it发展趋势很好,相关专业的很好找工作(前提是学的好)
注意:我说的是相关专业(或者说是经过系统学习的)。也就是说你仅仅会个java并没有什么卵用,要成为一个程序员,或者是能找到工作的程序员,不只是会个编程语言这么简单。
我直接给你贴大公司的招聘要求吧:
这是网络的,还是校招(校招是面对应届生,相应的要求低一点)的:
-热爱互联网,对互联网产品和技术有浓厚的兴趣,热衷于追求技术极致与创新
-深刻理解计算机数据结构和算法设计,精通C/C++、Java、PHP、python中至少一门编程语言
-了解windows、unix、linux等主流操作系统原理,熟练运用系统层支持应用开发
-优秀的分析问题和解决问题的能力,勇于解决难题
-强烈的上进心和求知欲,较强的学习能力和沟通能力,具备良好的团队合作精神
具有以下条件者优先考虑:
-计算机领域相关的编程大赛获奖、专业期刊发表文章或者有发明专利等
-有一定项目经验,熟悉软件工程开发流程
-具备专业领域的计算机知识和技能:搜索引擎、数据挖掘/机器学习、多媒体、地理信息系统、云计算、分布式系统等
这是产品开发方面的,其他公司的要求都是大同小异。
总结:现在it行业蓬勃发展,相关专业的刚毕业就签到15K+的多得是。但外行的想进入这个行业不容易(不容易是指取得同样的工资,外行花费的时间精力要比科班的多)