数据湖只存储了预处理后的_传统大数据存储的架构有哪些各有什么特点

A. 如何区别数据库、数据中台、数据湖

数据湖、数据仓库和数据中台，他们并没有直接的关系，只是他们为业务产生价值的形式有不同的侧重。

一、区别：

数据湖作为一个集中的存储库，可以在其中存储任意规模的所有结构化和非结构化数据。在数据湖中，可以存储数据不需要对其进行结构化，就可以运行不同类型的分析。

数据仓库，也称为企业数据仓库，是一种数据存储系统，它将来自不同来源的结构化数据聚合起来，用于业务智能领域的比较和分析，数据仓库是包含多种数据的存储库，并且是高度建模的。

数据中台是一个承接技术，引领业务，构建规范定义的、全域可连接萃取的、智慧的数据处理平台，建设目标是为了高效满足前台数据分析和应用的需求。数据中台距离业务更近，能更快速的相应业务和应用开发的需求，可追溯，更精准。

二、关系：

数据湖、数据仓库更多地是面向不同对象的不同形态的数据资产。而数据中台更多强调的是服务于前台，实现逻辑、标签、算法、模型的复用沉淀。

数据中台像一个“数据工厂”，涵盖了数据湖、数据仓库等存储组件，随着数据中台的发展，未来很有可能数据湖和数据仓库的概念会被弱化。

三、小结：

数据空间持续增长，为了更好地发挥数据价值，未来数据技术趋于融合，同时也在不断创新。

B. 数据湖的历史数据保存

详细如下：
据仓库作为一种技术出现，它将组织的关系数据库集合集中在一个伞下，允许作为一个整体查询和查看数据。
起初，数据仓库通常运行在来自 Teradata 和 Vertica 等供应商的昂贵的、基于本地设备的硬件上，后来在云中可用。从 90 年代末开始，数据仓库成为大公司最主要的数据架构。

C. 什么是数据湖泊

数据湖或hub的概念最初是由大数据厂商提出的，表面上看，数据都是承载在基于可向外扩展的HDFS廉价存储硬件之上的。但数据量越大，越需要各种不同种类的存储。最终，所有的企业数据都可以被认为是大数据，但并不是所有的企业数据都是适合存放在廉价的HDFS集群之上的。

数据湖或hub的概念最初是由大数据厂商提出的，表面上看，数据都是承载在基于可向外扩展的HDFS廉价存储硬件之上的。但数据量越大，越需要各种不同种类的存储。最终，所有的企业数据都可以被认为是大数据，但并不是所有的企业数据都是适合存放在廉价的HDFS集群之上的。

D. 数据湖是什么东东数据湖的四个最佳实践

数据湖听起来很简单：
把数据或信息汇集到一个结合处理速度和存储空间的大数据系统――Hadoop集群或内存解决方案，那样业务部门就能访问数据，获取新的洞察力。
不过，与IT行业的许多技术一样，现实比梦想困难得多。

E. 用预处理后的数据训练的模型测试新数据的时候怎么办

1）数据立方体聚集：聚集操作用于数据立方体结构中的数据。数据立方体存储多维聚集信息。
2）属性子集选择，参见文本分类概述中特征选择算法
3）维度归约：使用数据编码或变换，以便得到原数据的归约或“压缩”表示。归约分为无损的和有损的。有效的有损维归约方法为：小波变换和主成分分析
4）数值归约：通过选择替代的、‘较小的’数据表示形式来减少数据量
5）离散化和概念分层产生

F. 传统大数据存储的架构有哪些各有什么特点

数据源：所有大数据架构都从源代码开始。这可以包含来源于数据库的数据、来自实时源(如物联网设备)的数据，及其从应用程序(如Windows日志)生成的静态文件。

实时消息接收：假如有实时源，则需要在架构中构建一种机制来摄入数据。

数据存储：公司需要存储将通过大数据架构处理的数据。一般而言，数据将存储在数据湖中，这是一个可以轻松扩展的大型非结构化数据库。

批处理和实时处理的组合：公司需要同时处理实时数据和静态数据，因而应在大数据架构中内置批量和实时处理的组合。这是由于能够应用批处理有效地处理大批量数据，而实时数据需要立刻处理才能够带来价值。批处理涉及到长期运转的作业，用于筛选、聚合和准备数据开展分析。

分析数据存储：准备好要分析的数据后，需要将它们放到一个位置，便于对整个数据集开展分析。分析数据储存的必要性在于，公司的全部数据都聚集在一个位置，因而其分析将是全面的，而且针对分析而非事务进行了优化。

这可能采用基于云计算的数据仓库或关系数据库的形式，具体取决于公司的需求。

分析或报告工具：在摄入和处理各类数据源之后，公司需要包含一个分析数据的工具。一般而言，公司将使用BI(商业智能)工具来完成这项工作，而且或者需要数据科学家来探索数据。

“大数据” 通常指的是那些数量巨大、难于收集、处理、分析的数据集，亦指那些在传统基础设施中长期保存的数据。大数据存储是将这些数据集持久化到计算机中。

G. 预处理与存储过程的含义,二者什么区别程序中预处理只在insert时用吗存储过程一般什么时候用

许多成熟的数据库都支持预处理语句（Prepared Statements)的概念。它们是什么东西？

你可以把它们想成是一种编译过的要执行的sql语句模板，

可以使用不同的变量参数定制它。预处理语句具有两个主要的优点：

查询只需要被解析（或准备）一次，但可以使用相同或不同的参数执行多次。当查询准备好（Prepared）之后，数据库就会分析，编译并优化它要执行查询的计划。对于复杂查询来说，如果你要重复执行许多次有不同参数的但结构相同的查询，这个过程会占用大量的时间，使得你的应用变慢。通过使用一个预处理语句你就可以避免重复分析、编译、优化的环节。简单来说，预处理语句使用更少的资源，执行速度也就更快。

存储过程

（stored procere）是一组为了完成特定功能的sql 语句集，经编译后存储在数据库。中用户通过指定存储过程的名字并给出参数（如果该存储过程带有参数）来执行它

预处理不止是在插入数据时候用的在改变、删除的时候都可以用到

这两个方法什么时候都可以用但是本人认为预处理比较好因为不是每个高级数据库都有很好的存储过程 oracle 、mysql 、ms sql、DB2等每个数据库软件的存储过程都不相同其运行效率也不尽相同

具体喜好因人而异

H. 数据湖和数据仓库的区别是什么

数据湖和数据仓库的区别：

一个数据湖专门用于存储任何形式的数据，即结构化或非结构化。它还使我们能够以其本机格式保存大量原始数据，直到需要它为止。该术语主要与面向Hadoop的对象存储相关。在这种情况下，首先将组织的数据加载到Hadoop平台，然后再加载到业务分析。进一步，将数据挖掘工具添加到该数据中，该数据挖掘工具通常位于商用计算机的Hadoop群集节点中。

数据仓库

而数据仓库收集来自多个源（内部或外部），该数据被进一步用于商业目的优化的数据。以这种形式，数据大部分是结构化的，并来自关系数据库。但是，也可以收集非结构化数据，但是大多数情况是要收集结构化数据。

数据湖与数据仓库：两者都使用两种不同的策略来存储数据。

两者之间的主要区别之一是，在数据湖中没有特定的预定架构，它可以轻松容纳结构化或非结构化数据。数据湖的概念仅在2000年才开始兴起，国内数据湖的概念也是在2020年才由阿里在云栖大会上提出并展露锋芒，数据湖展示了如何存储数据以及如何同时节省成本。

但数据仓库却不是这种情况，数据仓库通常由确定的架构组成并处理主数据。

数据湖和数据仓库在处理非结构化数据方面足够有效，但是随着生成的数据量的增加，存储所有数据可能会变得昂贵。除此之外，这很耗时并且需要相当长的时间来进行分析和存储。数据湖之所以走到最前沿的众多原因之一。它可以最有效，最经济地处理非结构化数据。

作为数据分析专业人士，您需要了解以下两个术语之间的区别：

1.数据湖中使用的像大数据这样的技术是一个新概念，但是，像数据仓库这样的概念已经使用了数十年。

2.在数据湖中，无论其结构如何，都可以存储数据，并以原始形式保存数据，直到需要使用为止。但是在数据仓库中，提取的数据组成了定量指标，其中对数据进行了清理和转换。

3.数据湖具有存储所有数据的能力，可以存储当前数据和将来需要使用的数据。在数据仓库中，需要花费大量时间专门用于分析多个源。

4.数据湖可以收集所有类型的数据，包括结构化和非结构化。但是，在数据仓库中，它会收集结构化数据并将其按照专门为数据仓库设计的架构进行排列。

5.数据湖包含所有类型的数据，并促使用户在处理和清除数据之前访问数据。数据仓库提供对预定义数据类型的预定义问题的见解。

随着非结构化数据的不断增长，数据湖的兴起将变得越来越流行。但是，仍然需要数据仓库。因此，根据您的项目，您可能需要选择最佳的存储解决方案。

I. 物联网解决方案中的大数据处

作者 | 网络大数据
来源 | raincent_com

随着物联网的演变和发展，所有可以想象到的东西(或事物)和产业都将变得更加智能：智能家居和智慧城市、智能制造机械、智能汽车、智能健康等等。无数被授权收集和交换数据的东西正在形成一个全新的网络——物联网——一个可以在云中收集数据、传输数据和完成用户任务的物理对象网络。

物联网和大数据正在走向胜利之路。不过，要想从这一创新中获益，还需要解决一些挑战和问题。在本文中，我们很高兴与大家分享多年来在物联网咨询领域积累的知识。

物联网大数据如何应用

首先，有多种方法可以从物联网大数据中获益：在某些情况下，通过快速分析就足够了，而一些有价值的见解只有在经过深入的数据处理之后才能获得。

实时监测。通过连网设备收集的数据可以用于实时操作：测量家中或办公室的温度、跟踪身体活动(计算步数、监测运动)等;实时监测在医疗保健中被广泛应用(例如，获取心率、测量血压、糖分等);它还成功地应用于制造业(用于控制生产设备)、农业(用于监测牛和作物)和其他行业。

数据分析。在处理物联网生成的大数据时，我们有机会超越监测，并从这些数据中获得有价值的见解：识别趋势，揭示看不见的模式并找到隐藏的信息和相关性。

流程控制和优化。来自传感器的数据提供了额外的上下文情境信息，以揭示影响性能和优化流程的重要问题。

▲交通管理：跟踪不同日期和时间的交通负荷，以制定出针对交通优化的建议，例如，在特定时间段增加公共汽车的数量，看看是否有改观，以及建议引入新的交通信号灯方案和修建新的道路，以减少街道的交通拥堵状况。

▲零售：跟踪超市货架中商品的销售情况，并在商品快卖完之前及时通知工作人员补货。

▲农业：根据传感器的数据，在必要时给作物浇水。

预测性维护。通过连网设备收集的数据可以成为预测风险、主动识别潜在危险状况的可靠来源，例如：

▲医疗保健：监测患者健康状态并识别风险(例如，哪些患者有糖尿病、心脏病发作的风险)，以便及时采取措施。

▲制造业：预测设备故障，以便在故障发生之前及时解决。

还应注意的是，并非所有的物联网解决方案都需要大数据(例如，如果智能家居拥有者要借助智能手机来关灯，则可以在没有大数据的情况下执行此操作)。重要的是要考虑减少处理动态数据的工作量，并避免存储将来没有用处的大量数据。

物联网中的大数据挑战

除非处理大量数据以获取有价值的见解，否则这些数据完全没用。此外，在数据收集、处理和存储方面还有各种挑战。

▲数据可靠性。虽然大数据永远不会100%准确，但在分析数据之前，请务必确保传感器工作正常，并且用于分析的数据质量可靠，且不会因各种因素(例如，机器运行的不利环境、传感器故障)而损坏。

▲要存储哪些数据。连网设备会产生万亿字节的数据，选择存储哪些数据和删除哪些数据是一项艰巨的任务。更重要的是，一些数据的价值还远远没有显现出来，但将来您可能需要这些数据。如果您决定为将来存储数据，那么面临的挑战就是以最小的成本做到这一点。

▲分析深度。一旦并非所有大数据都很重要，就会出现另一个挑战：什么时候快速分析就足够了，什么时候需要进行更深入的分析以带来更多价值。

▲安全。毫无疑问，各个领域的连网事物可以让我们的生活变得更加美好，但与此同时，数据安全也成一个非常重要的问题。网络罪犯可以侵入数据中心和设备，连接到交通系统、发电厂、工厂，并从电信运营商那里窃取个人数据。物联网大数据对于安全专家来说还是一个相对较新的现象，相关经验的缺失会增加安全风险。

物联网解决方案中的大数据处理

在物联网系统中，物联网体系架构的数据处理组件因输入数据的特性、预期结果等而不同。我们已经制定了一些方法来处理物联网解决方案中的大数据。

数据来自与事物相连的传感器。“事物”可以是任何物体：烤箱、汽车、飞机、建筑、工业机器、康复设备等。数据可以是周期性的，也可以是流式的。后者对于实时数据处理和迅速管理事物至关重要。

事物将数据发送到网关，以进行初始数据过滤和预处理，从而减少了传输到下一个物联网系统中的数据量。

边缘分析。在进行深入数据分析之前，有必要进行数据过滤和预处理，以选择某些任务所需的最相关数据。此外，此阶段还可以确保实时分析，以快速识别之前在云中通过深度分析所发现的有用模式。

对于基本协议转换和不同数据协议之间的通信，云网关是必需的。它还支持现场网关和中央物联网服务器之间的数据压缩和安全数据传输。

连网设备生成的数据以其自然格式存储在数据湖中。原始数据通过“流”进入数据湖。数据保存在数据湖中，直到可以用于业务目的。清理过的结构化数据存储在数据仓库中。

机器学习模块根据之前积累的历史数据生成模型。这些模型定期(例如，一个月一次)用新数据流更新。输入的数据被累积并应用于训练和创建新模型。当这些模型经过专家的测试和批准后，控制应用程序就可以使用它们，以响应新的传感器数据发送命令或警报。

总结

物联网产生大量数据，可用于实时监控、分析、流程优化和预测性维护等。然而，应该记住，从各种格式的海量数据中获得有价值的见解并不是一件容易事情：您需要确保传感器工作正常，数据得到安全传输和有效处理。此外，始终存在一个问题：哪些数据值得存储和处理。

尽管存在一些挑战和问题，但应记住，物联网的发展势头强劲，并可以帮助多个行业的企业开辟新的数字机遇。

数据湖只存储了预处理后的

与数据湖只存储了预处理后的相关的内容