当前位置:首页 » 编程语言 » 用sql做数据清洗
扩展阅读
webinf下怎么引入js 2023-08-31 21:54:13
堡垒机怎么打开web 2023-08-31 21:54:11

用sql做数据清洗

发布时间: 2022-04-26 16:23:04

A. 数据挖掘中常用的数据清洗方法

数据挖掘中常用的数据清洗方法
对于数据挖掘来说,80%的工作都花在数据准备上面,而数据准备,80%的时间又花在数据清洗上,而数据清洗的工作,80%又花在选择若干种适当高效的方法上。用不同方法清洗的数据,对后续挖掘的分析工作会带来重大影响。

1、数值化
由于原始数据往往存在各种不同格式的数据形式,比如如果你要处理的数据是数值型,但是原始数据也许有字符型或者其他,那就要对其进行标准化操作。处理的方式可以很简单也可以很复杂,我采取过的一个方法是:对字符串取值,按照ANSI码值求和得到字符串的值,如果值太大,可以取一个适当的质数对其求模,本质上就是映射到一个区间了。然后就得到数值型的数据了。
2、标准化 normalization
由于原始数据各个维度之间的数值往往相差很大,比如一个维度的最小值是0.01,另一个维度最小值却是1000,那么也许在数据分析的时候,计算相关性或者方差啥的指标,后者会掩盖了前者的作用。因此有必要对整体数据进行归一化工作,也就是将它们都映射到一个指定的数值区间,这样就不会对后续的数据分析产生重大影响。我采取过的一个做法是:min-max标准化。
3、降维
由于原始数据往往含有很多维度,也就是咱们所说的列数。比如对于银行数据,它往往就含有几十个指标。这些维度之间往往不是独立的,也就是说也许其中之间若干的维度之间存在关联,也许有他就可以没有我,因此咱们可以使用数据的相关性分析来降低数据维度。我使用过的一个方法是:主成分分析法。
4、完整性:
解决思路:数据缺失,那么补上就好了。
补数据有什么方法?
- 通过其他信息补全,例如使用身份证件号码推算性别、籍贯、出生日期、年龄等
- 通过前后数据补全,例如时间序列缺数据了,可以使用前后的均值,缺的多了,可以使用平滑等处理,记得Matlab还是什么工具可以自动补全

- 实在补不全的,虽然很可惜,但也必须要剔除。但是不要删掉,没准以后可以用得上

- 解决数据的唯一性问题
解题思路:去除重复记录,只保留一条。
去重的方法有:
- 按主键去重,用sql或者excel“去除重复记录”即可,
- 按规则去重,编写一系列的规则,对重复情况复杂的数据进行去重。例如不同渠道来的客户数据,可以通过相同的关键信息进行匹配,合并去重。

- 解决数据的权威性问题
解题思路:用最权威的那个渠道的数据
方法:
对不同渠道设定权威级别,例如:在家里,首先得相信媳妇说的。。。

- 解决数据的合法性问题
解题思路:设定判定规则

- 设定强制合法规则,凡是不在此规则范围内的,强制设为最大值,或者判为无效,剔除

- 字段类型合法规则:日期字段格式为“2010-10-10”
- 字段内容合法规则:性别 in (男、女、未知);出生日期<=今天

设定警告规则,凡是不在此规则范围内的,进行警告,然后人工处理

- 警告规则:年龄》110

离群值人工特殊处理,使用分箱、聚类、回归、等方式发现离群值
解决数据的一致性问题

解题思路:建立数据体系,包含但不限于:

- 指标体系(度量)
- 维度(分组、统计口径)
- 单位
- 频度
- 数据

B. 常用的数据净化方法

1、删除缺失值

当样本数很多的时候,并且出现缺失值的样本在整个的样本的比例相对较小,这种情况下,我们可以使用最简单有效的方法处理缺失值的情况。那就是将出现有缺失值的样本直接丢弃。这是一种很常用的策略。

2、均值填补法

根据缺失值的属性相关系数最大的那个属性把数据分成几个组,然后分别计算每个组的均值,把这些均值放入到缺失的数值里面就可以了。

3、热卡填补法

对于一个包含缺失值的变量,热卡填充法的做法是:在数据库中找到一个与它最相似的对象,然后用这个相似对象的值来进行填充。不同的问题可能会选用不同的标准来对相似进行判定。最常见的是使用相关系数矩阵来确定哪个变量(如变量Y)与缺失值所在变量(如变量X)最相关。然后把所有变量按Y的取值大小进行排序。那么变量X的缺失值就可以用排在缺失值前的那个个案的数据来代替了。

还有类似于最近距离决定填补法、回归填补法、多重填补方法、K-最近邻法、有序最近邻法、基于贝叶斯的方法等。

异常值通常被称为“离群点”,对于异常值的处理,通常使用的方法有下面几种:

1、简单的统计分析

拿到数据后可以对数据进行一个简单的描述性统计分析,譬如最大最小值可以用来判断这个变量的取值是否超过了合理的范围,如客户的年龄为-20岁或200岁,显然是不合常理的,为异常值。

2、3∂原则

如果数据服从正态分布,在3∂原则下,异常值为一组测定值中与平均值的偏差超过3倍标准差的值。如果数据服从正态分布,距离平均值3∂之外的值出现的概率为P(|x-u| > 3∂) <= 0.003,属于极个别的小概率事件。如果数据不服从正态分布,也可以用远离平均值的多少倍标准差来描述。

3、箱型图分析

箱型图提供了识别异常值的一个标准:如果一个值小于QL01.5IQR或大于OU-1.5IQR的值,则被称为异常值。QL为下四分位数,表示全部观察值中有四分之一的数据取值比它小;QU为上四分位数,表示全部观察值中有四分之一的数据取值比它大;IQR为四分位数间距,是上四分位数QU与下四分位数QL的差值,包含了全部观察值的一半。箱型图判断异常值的方法以四分位数和四分位距为基础,四分位数具有鲁棒性:25%的数据可以变得任意远并且不会干扰四分位数,所以异常值不能对这个标准施加影响。因此箱型图识别异常值比较客观,在识别异常值时有一定的优越性。

4、基于模型检测

首先建立一个数据模型,异常是那些同模型不能完美拟合的对象;如果模型是簇的集合,则异常是不显着属于任何簇的对象;在使用回归模型时,异常是相对远离预测值的对象

优缺点:1.有坚实的统计学理论基础,当存在充分的数据和所用的检验类型的知识时,这些检验可能非常有效;2.对于多元数据,可用的选择少一些,并且对于高维数据,这些检测可能性很差。

5、基于距离

通常可以在对象之间定义邻近性度量,异常对象是那些远离其他对象的对象

优缺点:1.简单;2.缺点:基于邻近度的方法需要O(m2)时间,大数据集不适用;3.该方法对参数的选择也是敏感的;4.不能处理具有不同密度区域的数据集,因为它使用全局阈值,不能考虑这种密度的变化。

6、基于密度

当一个点的局部密度显着低于它的大部分近邻时才将其分类为离群点。适合非均匀分布的数据。

优缺点:1.给出了对象是离群点的定量度量,并且即使数据具有不同的区域也能够很好的处理;2.与基于距离的方法一样,这些方法必然具有O(m2)的时间复杂度。对于低维数据使用特定的数据结构可以达到O(mlogm);3.参数选择困难。虽然算法通过观察不同的k值,取得最大离群点得分来处理该问题,但是,仍然需要选择这些值的上下界。

7、基于聚类:

基于聚类的离群点:一个对象是基于聚类的离群点,如果该对象不强属于任何簇。离群点对初始聚类的影响:如果通过聚类检测离群点,则由于离群点影响聚类,存在一个问题:结构是否有效。为了处理该问题,可以使用如下方法:对象聚类,删除离群点,对象再次聚类(这个不能保证产生最优结果)。

优缺点:1.基于线性和接近线性复杂度(k均值)的聚类技术来发现离群点可能是高度有效的;2.簇的定义通常是离群点的补,因此可能同时发现簇和离群点;3.产生的离群点集和它们的得分可能非常依赖所用的簇的个数和数据中离群点的存在性;4.聚类算法产生的簇的质量对该算法产生的离群点的质量影响非常大。

噪音,是被测量变量的随机误差或方差。对于噪音的处理,通常有下面的两种方法:

1、分箱法

分箱方法通过考察数据的“近邻”(即,周围的值)来光滑有序数据值。这些有序的值被分布到一些“桶”或箱中。由于分箱方法考察近邻的值,因此它进行局部光滑。

用箱均值光滑:箱中每一个值被箱中的平均值替换。

用箱中位数平滑:箱中的每一个值被箱中的中位数替换。

用箱边界平滑:箱中的最大和最小值同样被视为边界。箱中的每一个值被最近的边界值替换。

一般而言,宽度越大,光滑效果越明显。箱也可以是等宽的,其中每个箱值的区间范围是个常量。分箱也可以作为一种离散化技术使用.

2、回归法

可以用一个函数拟合数据来光滑数据。线性回归涉及找出拟合两个属性(或变量)的“最佳”直线,使得一个属性能够预测另一个。多线性回归是线性回归的扩展,它涉及多于两个属性,并且数据拟合到一个多维面。使用回归,找出适合数据的数学方程式,能够帮助消除噪声。

C. 如何用sql语句来清空一个数据库

类似这样:
获取所有表名 ,根据表名来删除表
--变量@tablename保存表名
declare @tablename nvarchar(100)
--将用户表全部保存到临时表#tablename中
SELECT [name] into #tablename FROM sysobjects
WHERE type = 'U';
--当#tablename有数据时
while(select count(1) from #tablename)>0
begin
--从#tablename中取第一条
select top 1 @tablename=[name] from #tablename;
--进行表删除操作,表名为变量,所以此处用到动态sql
exec('drop table '+@tablename);
--将此表名记录从#tablename中删除
delete from #tablename where [name]=@tablename;
end
--最后删除临时表#tablename

D. 数据清理利器 SQL数据清洗!

俗话说的好,工欲善其事,必先利其器。很多从事数据统计分析工作的朋友应该会深有感触,苦于自己80%的时间在做数据清洗,而仅仅只有20%的时间在优化模型、分析统计结果等,今天我们就来介绍下SQL数据清洗。

因此,选择高效且易用的数据清洗工具,其重要性就不言而喻,今天先简单介绍下数据清洗中最重要的工具--SQL。

SQL,Structured Query Language, 结构化查询语言,是一种数据库查询和程序设计语言,用于存取数据以及查询、更新和管理关系数据库系统,堪称数据清洗界的神器。

SQL具有数据定义、数据操纵和数据控制:
1、SQL数据定义功能:能够定义数据库的三级模式结构,即外模式、全局模式和内模式结构。在SQL中,外模式有叫做视图(View),全局模式简称模式( Schema),内模式由系统根据数据库模式自动实现,一般无需用户过问。
2、SQL数据操纵功能:包括对基本表和视图的数据插入、删除和修改,特别是具有很强的数据查询功能。
3、SQL的数据控制功能:主要是对用户的访问权限加以控制,以保证系统的安全性。
SQL数据清洗方面特别突出,大家可以多多尝试。

E. 如何清除SQL数据库中的数据

  1. 单击开始---->所有程序---->Microsoft SQL Server 2014,选择SQL Server 2014 Management Studio选项,打开软件。

(5)用sql做数据清洗扩展阅读:

SQL是Structured Query Language(结构化查询语言)的缩写。SQL是专为数据库而建立的操作命令集,是一种功能齐全的数据库语言。在使用它时,只需要发出“做什么”的命令,“怎么做”是不用使用者考虑的。SQL功能强大、简单易学、使用方便,已经成为了数据库操作的基础,并且现在几乎所有的数据库均支持SQL。

SQL数据库的数据体系结构基本上是三级结构,但使用术语与传统关系模型术语不同。在SQL中,关系模式(模式)称为“基本表”(base table);存储模式(内模式)称为“存储文件”(stored file);子模式(外模式)称为“视图”(view);元组称为“行”(row);属性称为“列”(column)。名称对称如^00100009a^:

SQL包括了所有对数据库的操作,主要是由4个部分组成:

  1. 数据定义:这一部分又称为“SQL DDL”,定义数据库的逻辑结构,包括定义数据库、基本表、视图和索引4部分。

  2. 数据操纵:这一部分又称为“SQL DML”,其中包括数据查询和数据更新两大类操作,其中数据更新又包括插入、删除和更新三种操作。

  3. 数据控制:对用户访问数据的控制有基本表和视图的授权、完整性规则的描述,事务控制语句等。

  4. 嵌入式SQL语言的使用规定:规定SQL语句在宿主语言的程序中使用的规则。


参考资料:IT专家网-微软SQL

F. 数据挖掘中常用的数据清洗方法有哪些

数据清洗目的主要有:

①解决数据质量问题;

②让数据更适合做挖掘;

数据清洗是对数据审查过程中发现的明显错误值、缺失值、异常值、可疑数据,选用一定方法进行“清洗”,为后续的数据分析做准备。

数据清洗的方法有:

①数据数值化

对存在各种不同格式的数据形式的原始数据,对其进行标准化操作。对字符串取值,按照ANSI码值求和得到字符串的值,如果值太大,取一个适当的质数对其求模。

②标准化 normalization

对整体数据进行归一化工作,利用min-max标准化方法将数据都映射到一个指定的数值区间。

③数据降维

原始数据存在很多维度,使用主成分分析法对数据的相关性分析来降低数据维度。

④数据完整性

数据完整性包括数据缺失补数据和数据去重;

补全数据的方法有:

  1. 通过身份证件号码推算性别、籍贯、出生日期、年龄(包括但不局限)等信息补全;

  2. 通过前后数据补全;

  3. 实在补不全的,对数据进行剔除。

数据去重的方法有:

  1. 用sql或者excel“去除重复记录”去重;

  2. 按规则去重,编写一系列的规则,对重复情况复杂的数据进行去重。

G. sql数据库满了怎么清理

-- 清空日志
--压缩日志及数据库文件大小

/*--特别注意
请按步骤进行,未进行前面的步骤,请不要做后面的步骤
否则可能损坏你的数据库.
--*/
select*fromsysfiles
--1.清空日志
DUMPTRANSACTIONusernameWITHNO_LOG

--2.截断事务日志:
BACKUPLOGusernameWITHNO_LOG

--3.收缩数据库文件(如果不压缩,数据库的文件不会减小
-- 企业管理器--右键你要压缩的数据库--所有任务--收缩数据库--收缩文件
--选择日志文件--在收缩方式里选择收缩至XXM,这里会给出一个允许收缩到的最小M数,直接输入这个数,确定就可以了
--选择数据文件--在收缩方式里选择收缩至XXM,这里会给出一个允许收缩到的最小M数,直接输入这个数,确定就可以了

-- 也可以用SQL语句来完成
--收缩数据库
DBCCSHRINKDATABASE(username)

--收缩指定数据文件,1是文件号,可以通过这个语句查询到:select*fromsysfiles

DBCCSHRINKFILE(2)

--4.为了最大化的缩小日志文件(如果是sql7.0,这步只能在查询分析器中进行)
-- a.分离数据库:
-- 企业管理器--服务器--数据库--右键--分离数据库

-- b.在我的电脑中删除LOG文件

-- c.附加数据库:
-- 企业管理器--服务器--数据库--右键--附加数据库

-- 此法将生成新的LOG,大小只有500多K

-- 或用代码:
-- 下面的示例分离username,然后将username中的一个文件附加到当前服务器。

execsp_dboptionusername,'singleuser',true
a.分离
EXECsp_detach_db@dbname='username'

b.删除日志文件
execmaster..xp_cmdshell'delD:\ProgramFiles\SQL\database\username_LOG.ldf'

c.再附加
EXECsp_attach_single_file_db@dbname='username',
@physname='D:\ProgramFiles\SQL\database\username_Data.MDF'

--5.为了以后能自动收缩,做如下设置:
-- 企业管理器--服务器--右键数据库--属性--选项--选择"自动收缩"

--SQL语句设置方式:
EXECsp_dboption'数据库名','autoshrink','TRUE'

--6.如果想以后不让它日志增长得太大
-- 企业管理器--服务器--右键数据库--属性--事务日志
--将文件增长限制为xM(x是你允许的最大数据文件大小)

--SQL语句的设置方式:
alterdatabase数据库名modifyfile(name=逻辑文件名,maxsize=20)

H. sql数据库怎么清理

思路:1,把数据库文件路径找到。2,分离数据库。3,删除对应数据库文件的日志文件.ldf。4,附加对应数据库文件.mdf。 详解:先看“jita”
数据库文件放在什么地方在D:\Data路径下。再把“jita”
数据库分离 然后把日志.ldf
删除,再附加数据.mdf 此时sql
server会重新生成一个很小的.ldf
日志。

I. SQL删除数据库中的所有数据

Sql Server中清空所有数据表中的记录
清空所有数据表中的记录:
复制代码 代码如下:
exec sp_msforeachtable @Command1 ='truncate table ?'

删除所有数据表:
复制代码 代码如下:
exec sp_msforeachtable 'delete N''?'''

清空SQL Server数据库中所有表数据的方法(有约束的情况)
其实删除数据库中数据的方法并不复杂,为什么我还要多此一举呢,一是我这里介绍的是删除数据库的所有数据,因为数据之间可能形成相互约束关系,删除操作可能陷入死循环,二是这里使用了微软未正式公开的sp_MSForEachTable存储过程。
也许很多读者朋友都经历过这样的事情:要在开发数据库基础上清理一个空库,但由于对数据库结构缺乏整体了解,在删除一个表的记录时,删除不了,因为可能有外键约束,一个常见的数据库结构是一个主表,一个子表,这种情况下一般都得先删除子表记录,再删除主表记录。
说道删除数据记录,往往马上会想到的是delete和truncate语句,但在遇到在两个或多个表之间存在约束的话,这两个语句可能都会失效,而且最要命的是这两个命令都只能一次操作一个表。那么真正遇到要删除SQL Server数据库中所有记录时,该怎么办呢?有两个选择:
1.按照先后顺序逐个删除,这个方法在表非常多的情况下显得很不现实,即便是表数量不多,但约束比较多时,你还是要花费大量的时间和精力去研究其间的约束关系,然后找出先删哪个表,再删哪个表,最后又删哪个表。
2.禁用所有约束,删除所有数据,最后再启用约束,这样就不用花时间和精力去研究什么约束了,只需要编写一个简单的存储过程就可以自动完成这个任务。
复制代码 代码如下:

CREATE PROCEDURE sp_DeleteAllData
AS
EXEC sp_MSForEachTable 'ALTER TABLE ? NOCHECK CONSTRAINT ALL'
EXEC sp_MSForEachTable 'ALTER TABLE ? DISABLE TRIGGER ALL'
EXEC sp_MSForEachTable 'DELETE FROM ?'
EXEC sp_MSForEachTable 'ALTER TABLE ? CHECK CONSTRAINT ALL'
EXEC sp_MSForEachTable 'ALTER TABLE ? ENABLE TRIGGER ALL'
EXEC sp_MSFOREACHTABLE 'SELECT * FROM ?'
GO

从这两个选择中不难看出第二个选择是最简单有效的了,那么在使用第二个选择时,具体该怎么实施呢?
首先得编写代码循环检查所有的表,这里我推荐一个存储过程sp_MSForEachTable,因为在微软的官方文档中没有对这个存储过程有描述,很多开发人员也许都还未曾听说,所以你在互联网上搜索得到的解决办法大多很复杂,也许有的人会认为,既然没有官方文档,这个存储过程可能会不稳定,打心理上会排斥它,但事实并非如此。下面来先看一个完整的脚本
这个脚本创建了一个命名为sp_DeleteAllData的存储过程,前面两行语句分别禁用约束和触发器,第三条语句才是真正地删除所有数据,接下里的语句分别还原约束和触发器,最后一条语句是显示每个表中的记录,当然这条语句也可以不要,我只是想确认一下是否清空了所有表而已。
你可以在任何数据库上运行这个存储过程,当然不要在生成数据库上运行,可别怪我没告诉你!不管怎样,还是先备份一下数据库,使用备份数据库还原,然后再运行该存储过程,呵呵,即使是一个大型数据库,也要不多长时间,你的数据库就成一个空库了

第三种方法:TRUNCATE TABLE

在sql server数据库中快速删除记录,清空表若要删除表中的所有行,则 TRUNCATE TABLE 语句是一种快速、无日志记录的方法。TRUNCATE TABLE 与不含有 WHERE 子句的 DELETE 语句在功能上相同。但是,TRUNCATE TABLE 速度更快,并且使用更少的系统资源和事务日志资源。

与 DELETE 语句相比,TRUNCATE TABLE 具有以下优点:

所用的事务日志空间较少。

DELETE 语句每次删除一行,并在事务日志中为所删除的每行记录一项。TRUNCATE TABLE 通过释放用于存储表数据的数据页来删除数据,并且在事务日志中只记录页释放。

使用的锁通常较少。

当使用行锁执行 DELETE 语句时,将锁定表中各行以便删除。TRUNCATE TABLE 始终锁定表和页,而不是锁定各行。

如无例外,在表中不会留有任何页。

执行 DELETE 语句后,表仍会包含空页。例如,必须至少使用一个排他 (LCK_M_X) 表锁,才能释放堆中的空表。如果执行删除操作时没有使用表锁,表(堆)中将包含许多空页。对于索引,删除操作会留下一些空页,尽管这些页会通过后台清除进程迅速释放。

与 DELETE 语句相同,使用 TRUNCATE TABLE 清空的表的定义与其索引和其他关联对象一起保留在数据库中。

J. 如何实现SQL数据库表定时清理

1、编写一个存储过程,用来清楚需要清理的数据库表,
2、设置任务定时执行上面些的这个存储过程
呵呵,希望能有帮助,^_^