當前位置:首頁 » 編程語言 » sql隨機抽樣
擴展閱讀
webinf下怎麼引入js 2023-08-31 21:54:13
堡壘機怎麼打開web 2023-08-31 21:54:11

sql隨機抽樣

發布時間: 2022-12-07 17:21:23

A. 隨機抽樣,使用sql或者vba都可

select
*
from
(
select
b.*
from
table1
a,table2
b
where
a.rs1
=
b.rs1)
where
rownum
<
4

B. hql怎麼從資料庫中隨機抽取幾條記錄

題主可以參考運行下列mysql資料庫 Sql語句(隨機抽取5條記錄):

select * from tblName order by rand() limit 5;

C. SQL Server 2008 不放回抽樣演算法及代碼寫法

declare@aint,@bint,@cint,@dint,@eint,@fint,@gint
set@g=1
select@a=right(rand(),5)--模擬隨機五個數字
select@b=@a/10000,--求出萬位的單個數字
@c=(@a-@b*10000)/1000,--求出千位的單個數字
@d=(@a-@b*10000-@c*1000)/100,--求出百位的單個數字
@e=(@a-@b*10000-@c*1000-@d*100)/10,--求出十位的單個數字
@f=@a-@b*10000-@c*1000-@d*100-@e*10--求出個位的單個數字
if(@f-@e=1)--比較每個相鄰的數字是否連續數字,如果是的話累計加1
set@g=@g+1
if(@e-@d=1)--比較每個相鄰的數字是否連續數字,如果是的話累計加1
set@g=@g+1
if(@d-@c=1)--比較每個相鄰的數字是否連續數字,如果是的話累計加1
set@g=@g+1
if(@c-@b=1)--比較每個相鄰的數字是否連續數字,如果是的話累計加1
set@g=@g+1
if(@b-@a=1)--比較每個相鄰的數字是否連續數字,如果是的話累計加1
set@g=@g+1
if(@g=1)--如果計數變數還是初始值1的時候,把變數清0。
set@g=0
printconvert(varchar(10),@a)+'='+convert(varchar(10),@b)+'+'+convert(varchar(10),@c)+'+'+convert(varchar(10),@d)+'+'+convert(varchar(10),@e)+'+'+convert(varchar(10),@f)+'一共有'+convert(varchar(10),@g)+'位連續數字'--顯示結果

--最後不知道你需要插入的目標表是什麼,你只好自己插入了。
--如果幫到你的話,請採納~~謝謝。

D. ClickHouse億點抽樣展示

    數據源 (點數據使用之前導入的數據120038310條, https://juejin.cn/post/6903100159484395534 )

SAMPLE 子句特點

    Hash函數intHash64可以用於將元素不可逆的偽隨機打亂。經過測試一億多個點得抽樣性能比較滿意,可以為頁面提供比較滿意得展示。注意事項:sample的欄位必須是int類型,必須在主鍵或者排序中。

抽樣sql,0.01為示例,可根據實際修改

    使用Express作為服務端,請求數據並且在網頁中使用Maptalks展示,本地測試
[圖片上傳失敗...(image-4abeef-1609984875573)]

https://clickhouse.tech/docs/zh/sql-reference/functions/hash-functions/#md5

https://clickhouse.tech/docs/zh/sql-reference/statements/select/sample/

E. ORACLE怎麼做隨機抽樣

VALUE 函數的第一種形式返回一個大於或等於 0 且小於 1 的隨機數;第二種形式返回一個大於或等於 LOW ,小於 HIGH 的隨機數。下面是其用法的一個示例:

SQL> select dbms_random.value, dbms_random.value(0,18) from al;

VALUE DBMS_RANDOM.VALUE(0,18)
---------- -----------------------
0.05863200 12.9840987851451

F. sql如何進行分層隨機抽樣

--按大、中、小
分別選取
然後再組合
--按新欄位重新排序後,你選出來的就是隨機的了
select
top
60
percent
*
from
table_1
where
A='大'
order
by
B
union
all
select
top
60
percent
*
from
table_1
where
A='中'
order
by
B
union
all
select
top
60
percent
*
from
table_1
where
A='小'
order
by
B

G. SQL語句如何按照概率隨機抽取數據

--題目沒有表達清楚,我就寫個差不多的sql給你吧。
--通過case語句來判斷返回一個概率
selectid,state
casestatewhen1then0.1when2then0.3else0.05endas概率
from表a

H. 資料庫問題

1.數據挖掘是從大量的數據中,抽取出潛在的、有價值的知識(模型或規則)的過程。
1. 數據挖掘能做什麼?
1)數據挖掘能做以下六種不同事情(分析方法):
· 分類 (Classification)
· 估值(Estimation)
· 預言(Prediction)
· 相關性分組或關聯規則(Affinity grouping or association rules)
· 聚集(Clustering)
· 描述和可視化(Des cription and Visualization)
2)數據挖掘分類

以上六種數據挖掘的分析方法可以分為兩類:直接數據挖掘;間接數據挖掘
· 直接數據挖掘

目標是利用可用的數據建立一個模型,這個模型對剩餘的數據,對一個特定的變數(可以

理解成資料庫中表的屬性,即列)進行描述。
· 間接數據挖掘

目標中沒有選出某一具體的變數,用模型進行描述;而是在所有的變數中建立起某種關系
· 分類、估值、預言屬於直接數據挖掘;後三種屬於間接數據挖掘
3)各種分析方法的簡介
· 分類 (Classification)

首先從數據中選出已經分好類的訓練集,在該訓練集上運用數據挖掘分類的技術,建立分

類模型,對於沒有分類的數據進行分類。

例子:
a. 信用卡申請者,分類為低、中、高風險
b. 分配客戶到預先定義的客戶分片

注意: 類的個數是確定的,預先定義好的
· 估值(Estimation)

估值與分類類似,不同之處在於,分類描述的是離散型變數的輸出,而估值處理連續值的

輸出;分類的類別是確定數目的,估值的量是不確定的。

例子:
a. 根據購買模式,估計一個家庭的孩子個數
b. 根據購買模式,估計一個家庭的收入
c. 估計real estate的價值

一般來說,估值可以作為分類的前一步工作。給定一些輸入數據,通過估值,得到未知的

連續變數的值,然後,根據預先設定的閾值,進行分類。例如:銀行對家庭貸款業務,運

用估值,給各個客戶記分(Score 0~1)。然後,根據閾值,將貸款級別分類。
· 預言(Prediction)

通常,預言是通過分類或估值起作用的,也就是說,通過分類或估值得出模型,該模型用

於對未知變數的預言。從這種意義上說,預言其實沒有必要分為一個單獨的類。

預言其目的是對未來未知變數的預測,這種預測是需要時間來驗證的,即必須經過一定時

間後,才知道預言准確性是多少。
· 相關性分組或關聯規則(Affinity grouping or association rules)

決定哪些事情將一起發生。

例子:
a. 超市中客戶在購買A的同時,經常會購買B,即A => B(關聯規則)

b. 客戶在購買A後,隔一段時間,會購買B (序列分析)
· 聚集(Clustering)

聚集是對記錄分組,把相似的記錄在一個聚集里。聚集和分類的區別是聚集不依賴於預先

定義好的類,不需要訓練集。

例子:
a. 一些特定症狀的聚集可能預示了一個特定的疾病
b. 租VCD類型不相似的客戶聚集,可能暗示成員屬於不同的亞文化群

聚集通常作為數據挖掘的第一步。例如,"哪一種類的促銷對客戶響應最好?",對於這一

類問題,首先對整個客戶做聚集,將客戶分組在各自的聚集里,然後對每個不同的聚集,

回答問題,可能效果更好。
· 描述和可視化(Des cription and Visualization)

是對數據挖掘結果的表示方式。
2.數據挖掘的商業背景

數據挖掘首先是需要商業環境中收集了大量的數據,然後要求挖掘的知識是有價值的。有

價值對商業而言,不外乎三種情況:降低開銷;提高收入;增加股票價格。
1)數據挖掘作為研究工具 (Research)
2)數據挖掘提高過程式控制制(Process Improvement)
3)數據挖掘作為市場營銷工具(Marketing)
4)數據挖掘作為客戶關系管理CRM工具(Customer Relationship Management)

3.數據挖掘的技術背景
1)數據挖掘技術包括三個主要部分:演算法和技術;數據;建模能力
2)數據挖掘和機器學習(Machine Learning)
· 機器學習是計算機科學和人工智慧AI發展的產物
· 機器學習分為兩種學習方式:自組織學習(如神經網路);從例子中歸納出規則(如決

策樹)
· 數據挖掘由來

數據挖掘是八十年代,投資AI研究項目失敗後,AI轉入實際應用時提出的。它是一個新興

的,面向商業應用的AI研究。選擇數據挖掘這一術語,表明了與統計、精算、長期從事預

言模型的經濟學家之間沒有技術的重疊。
3)數據挖掘和統計

統計也開始支持數據挖掘。統計本包括預言演算法(回歸)、抽樣、基於經驗的設計等
4)數據挖掘和決策支持系統
· 數據倉庫
· OLAP(聯機分析處理)、Data Mart(數據集市)、多維資料庫
· 決策支持工具融合

將數據倉庫、OLAP,數據挖掘融合在一起,構成企業決策分析環境。
4. 數據挖掘的社會背景

數據挖掘與個人預言:數據挖掘號稱能通過歷史數據的分析,預測客戶的行為,而事實上

,客戶自己可能都不明確自己下一步要作什麼。所以,數據挖掘的結果,沒有人們想像中

神秘,它不可能是完全正確的。

客戶的行為是與社會環境相關連的,所以數據挖掘本身也受社會背景的影響。比如說,在

美國對銀行信用卡客戶信用評級的模型運行得非常成功,但是,它可能不適合中國。

2.數據倉庫是在企業管理和決策中面向主題的、集成的、與時間相關的、不可修改的數據集合

數據倉庫,英文名稱為Data Warehouse,可簡寫為DW。

數據倉庫之父Bill Inmon在1991年出版的「Building the Data Warehouse」一書中所提出的定義被廣泛接受——數據倉庫(Data Warehouse)是一個面向主題的(Subject Oriented)、集成的(Integrated)、相對穩定的(Non-Volatile)、反映歷史變化(Time Variant)的數據集合,用於支持管理決策(Decision Making Support)。

◆面向主題:操作型資料庫的數據組織面向事務處理任務,各個業務系統之間各自分離,而數據倉庫中的數據是按照一定的主題域進行組織的。

◆集成的:數據倉庫中的數據是在對原有分散的資料庫數據抽取、清理的基礎上經過系統加工、匯總和整理得到的,必須消除源數據中的不一致性,以保證數據倉庫內的信息是關於整個企業的一致的全局信息。

◆相對穩定的:數據倉庫的數據主要供企業決策分析之用,所涉及的數據操作主要是數據查詢,一旦某個數據進入數據倉庫以後,一般情況下將被長期保留,也就是數據倉庫中一般有大量的查詢操作,但修改和刪除操作很少,通常只需要定期的載入、刷新。

◆反映歷史變化:數據倉庫中的數據通常包含歷史信息,系統記錄了企業從過去某一時點(如開始應用數據倉庫的時點)到目前的各個階段的信息,通過這些信息,可以對企業的發展歷程和未來趨勢做出定量分析和預測。

數據倉庫是一個過程而不是一個項目。

數據倉庫系統是一個信息提供平台,他從業務處理系統獲得數據,主要以星型模型和雪花模型進行數據組織,並為用戶提供各種手段從數據中獲取信息和知識。

從功能結構化分,數據倉庫系統至少應該包含數據獲取(Data Acquisition)、數據存儲(Data Storage)、數據訪問(Data Access)三個關鍵部分

數據挖掘(Data Mining),又稱為資料庫中的知識發現(Knowledge Discovery in Database, KDD),就是從大量數據中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過程,簡單的說,數據挖掘就是從大量數據中提取或「挖掘」知識。

並非所有的信息發現任務都被視為數據挖掘。例如,使用資料庫管理系統查找個別的記錄,或通過網際網路的搜索引擎查找特定的Web頁面,則是信息檢索(information retrieval)領域的任務。雖然這些任務是重要的,可能涉及使用復雜的演算法和數據結構,但是它們主要依賴傳統的計算機科學技術和數據的明顯特徵來創建索引結構,從而有效地組織和檢索信息。盡管如此,數據挖掘技術也已用來增強信息檢索系統的能力。
3.數據挖掘和數據倉庫以資料庫為基礎。

I. 如何在sql中隨機抽樣

如果是隨機從表中選出N條記錄的話:
SELECT TOP(N) *
FROM [表明]
ORDER BY newid()