當前位置:首頁 » 數據倉庫 » 生物信息學建樹需要什麼配置
擴展閱讀
webinf下怎麼引入js 2023-08-31 21:54:13
堡壘機怎麼打開web 2023-08-31 21:54:11

生物信息學建樹需要什麼配置

發布時間: 2022-09-27 04:37:33

❶ 學習生物信息學,需要配置怎樣的電腦呢

首先的問題的是,我們需要什麼樣的計算機。

關於硬體:

需要至少4G內存,最好可以達到16G以上內存;

至少500G硬碟空間。通常一個RNA-seq的數據量為20G左右,如果再加上分析之後的結果,可能達到50G,所以即使你有500G的空間,也分析不了幾組數據。所以硬碟空間越多越好,比如說2TB或者使用高速網路存貯界質。

CPU,至少2核。因為你在運行程序時,通常100%佔到CPU,如果沒有2核,計算機多半會假死在那裡。如果有8核,或者以上更好。

GPU,很多程序開始使用GPU運算,如果能有好的GPU顯卡,也是推薦的,但不是必須的。

為了達到以上的條件,入門極的比如說Mac Pro。進階級的就是獨立server,高級的是supercomputer clusters,支持qsub之類的。或者可以購買雲計算服務。

對於操作系統,在工作站方面,推薦Mac OS。它運行穩定,與LINUX同源。需要下載安裝Xcode和wget就可以了。當然你還可以很方便的安裝office辦公軟體,以及photoshop,AI等工具。最後安裝好R/Bioconctor,就可以開始工作了。如果買了兼容機,可以安裝上Linux/UNIX系統。它在安裝上R/Bioconctor之後基本上就可以了。它的缺點是辦公軟體,繪圖軟體的安裝。最差的就是Windows了。需要安裝比如GCC編譯器,make工具,mingw64, perl, zip/unzip, tar, wget, ghostscript等等。

有了軟體及硬體,接下來的工作就是了解一些常識以武裝你的大腦,這是整個運行環境中最重要的一環。首先,你需要學習了掌握UNIX常用命令,並且不反感字元界面。其次學會安裝,設置及構建網路服務,比如apache的websever,以及mysql資料庫服務。第三安裝及設置一個Galaxy。當然,第二步及第三步可能會有難度,可以先使用Galaxy本身的服務,但是它有很多限制,所以最好還是自己安裝一個比較好。第四步,學習一門計算機語言,比如c, python, ruby, java等,還有一門腳本式語言工具,比如perl。第五步,學習使用R/Bioconctor。第六步,統計學。

至此,你的NGS分析環境就設置完成了。如果快的話,你可以兩三個月就設置完成,達到起步的階段,之後就是漫長的學習過程。慢的話,四年本科也不一定學到多少。

❷ 求助:搞生物信息學的電腦硬體配置怎樣

特地去網路了生物信息學,多用於數據統計。我也是大學生,對電腦市場有些了解,希望可以幫到你。
一、配置建議
(1)處理器:i5-5200U以上,例如i5-6300HQ(高壓版性能高,但多用於游戲本)、i5-7500U(建議)。
(2)顯卡:GT系列以上,例如GT920MX、GT930MX、GT940MX(建議),更高性能的有GTX940M、GTX950M等。
(3)內存:4G DDR4 2133MHz(建議)。
(4)硬碟:1T 機械硬碟(HDD)(建議),有條件的可以搭配128G固態硬碟(SSD),有助於提升系統流暢度。
二、價格建議
這類筆記本通常價格在3299到5999元,屬於商務本、輕薄本。
三、型號建議
聯想小新、華碩頑石、惠普暢遊人、三星(4299元以內)。
其餘像宏基、神舟這些二線品牌就不推薦了。

❸ 做生物信息學用什麼配置的電腦

自用的話,普通本就行了,關鍵是穩定。
至於內存,小規模計算2G4G都夠了,跑大程序,多幾個G也不夠用。
有錢的話,實驗室配個小型伺服器,要是有cluster就更好啦。

❹ 生物醫學工程專業需要什麼樣的電腦配置

生物醫學工程專業需要普通的電腦即可,主要用於很網上查資料,完成作業,交作業、後面寫畢業論文。

生物醫學工程是本世紀初誕生的專業,其實他是電子信息工程的一個分支專業,主要是設計製造醫學相關電子設備的專業,但是很多考生和家長誤以為是醫學類專業而報考,耽誤了時間。

生物醫學工程專業專業基礎課:

高等數學,線性代數,概率論與數理統計,普通化學及實驗,大學物理,大學物理實驗,電路分析技術,模擬電子技術,模擬電子技術實驗。

數字電子技術,數字電子技術實驗,生物信息學,生物化學,人體解剖生理學,工程圖學,計算方法,電磁場基礎,自動控制原理,單片機原理與應用,基礎醫學。

❺ 生物信息學專業對電腦配置方面有怎樣的要求主頻/顯卡/內存/硬碟/系統要求怎麼樣急求

如果只是生物信息學的話 要看你是否需要瀏覽生物相關3D模型 一般一下配置完全足夠
主頻:2.1GHZ以上 顯卡:ATI HD7970 內存4G 硬碟:500G(推薦用希捷的) 系統:XP或WIN7都可以(看你個人喜好)
如果不瀏覽佔用顯存的3D模型 顯卡就用一般的中端顯卡就行了 推薦NVIDIA GT610

❻ 生物信息學對計算機的配置要求有多高

生物信息學都是用伺服器處理數據的,一般都是用的Linux操作系統.個人電腦處理不了太多的數據,不過很少量數據還行.你的配置還是不錯.可以自己用著試試.不行就找伺服器吧!PC處理這種大量的生物數據實在很有限.

❼ 請問作為生物信息學專業的人用,這個本本的配置如何

生物信息的計算量很大,對電腦的要求主要集中在操作系統、CPU和內存
顯卡、光碟機和硬碟不是那麼重要
計算機系統 Microsoft Windows XP Professional (32位/Service Pack 3) 最好64位,運算速度快
CPU (英特爾)Intel(R) Celeron(R) M CPU 440 @ 1.86GHz(1866 MHz) 型號比較低
內存 1GB(南亞 PC2-4200 SO-DIMM 533MHz) 現在2G內存應該是主流,主板支持的話4G也好
價格的好,不會貴多少

❽ 【生信課程】04-分子進化與系統發生-山東大學-生物信息學

拉馬提出進廢退理論。他說生物經常使用的器官會逐漸發達,不經常使用的器官會逐漸退化。而且這種後天獲得的性狀是可以遺傳的,因此生物可以把後天鍛煉的成果遺傳給下一代。拉馬克舉了長頸鹿的例子。

反對
拉馬克主義提出後,生物界支持聲和反對聲此起彼伏。先來聽聽反對他的聲音。德國科學家魏斯曼做了一個實驗。他把老鼠的尾巴都切斷,之後再讓沒有尾巴的老鼠互相交配,生出的下一代老鼠依然是有尾巴的。然後再把子代老鼠的尾巴切斷之後交配,生出的下一代老鼠依然是有尾巴的。實驗一直重復至第 21 代,但是老鼠的尾巴依然長長的,一點兒都沒短。於是魏斯曼說拉馬克是錯的!

支持
再來聽聽支持的聲音。水生的雄蟾蜍都有一個黑色的趾墊,而陸生的沒有。奧地利科學家卡姆梅勒,強迫陸生的產婆蟾在水中生活。繁殖了幾代之後就絕種了。但是在絕種之前,產婆蟾的雄蟾蜍據稱是長出了黑色的指墊,而且水中生活的這幾代,趾墊越來越明顯。

達爾文認為「物競天擇」意味著,存在一種最初的生物,之後通過某種方式得到了改良。如果環境對你施加壓力,壓力有可能是捕食者的威脅或類似的情況,那些通過某種手段生存下來,並且繁衍後代的生物,他們的後代也能生存下來,並且繼續繁衍生息。因此,如今我們所見到的動植物都擁有很強的適應性。

分子水平是指 DNA、RNA、以及蛋白質序列。

同源(Homologs),相同來源。
它的確切定義是,來源於共同祖先的相似序列為同源序列。
也就是說,相似序列有兩種,一種是來源於共同祖先的,那麼他們可以叫同源,另一種不是來源於共同祖先的,那麼他們盡管相似也不能叫同源。

第二種情況出現的概率雖然低,但還是存在的,所以相似序列並不一定是同源序列。

同源又分為三種,直系同源,旁系同源和異同源。

直系同源(Orthologs)
是指,來自於 不同物種的由垂直家系 ,也就是物種形成,進化而來的基因,並且典型的保留與原始基因相同的功能。也就是說,隨著進化分支,一個基因進入了不同的物種,並保留了原有功能。這時,不同物種中的這個基因就屬於直系同源。

旁系同源(Paralogs)
是指在 同一物種中的來源 於基因復制的基因,可能會進化出新的但與原功能相關的功能來。
基因復制產生了兩個重復的基因,多出來的這個有幾種命運,一個是又丟了。復制出來發現沒有用,又刪了。另一種命運是演化出了新的功能。
如果這個新功能是往好的方向發展,就會被保留下了,如果是往不好的方面發展,就會被自然選擇淘汰。
還有一種命運,就是被放置不用。復制出來以後,又加了個終止子,既不表達,也不刪除,擱那裡擱著不管,成了偽基因。
被保留下來的具有新功能的基因與另一個復制出來的基因之間就是旁系同源。

異同源(Xenologs)
是指通過水平基因轉移,來源於共生或病毒侵染所產生的相似基因。
異同源的產生不是垂直進化而來的,也不是平行復制產生的,而是由於原核生物與真核生物的接觸,比如病毒感染,在 跨度巨大的物種間跳躍轉移產生 的。

在計算機科學領域,樹的定義規定,樹上從一個點到另一個點的路徑只有唯一的一條。而當兩點之間的路徑個數≥2 的時候,就形成了網。

編織生命網的要素之一就是水平基因轉移。水平基因轉移,是指生物將遺傳物質傳遞給其他細胞而非其
子代細胞的過程。

研究分子進化所要構建的系統發生樹(Phylogenetic tree),也叫分子樹。

樹是從根(root)長出來的。從根延伸出的樹枝就叫枝(branch/lineage)。枝上有分叉,分叉的地方就叫節(node)。枝的頂端頂著的就是葉(leaf)。根、節和葉都可以叫做節點(node)。但是葉後面不再有枝了,是最外面的節點,所以叫外節點(outer node)。而節的前後都有枝,所以叫內節點(inner node)。根是一切的起源,習慣上就叫根。 根和節都表示理論上曾經存在的祖先,葉子是現存的物種。

形狀表示生物學意義都一樣。如序列多,用原型,方便paper排版。

根,它應該是所有葉子的共同祖先。

外類群(outgroup)來確定,從而把無根樹變成有根樹。

有根樹反映了樹上基因或蛋白質進化的時間順序,通過分析有根樹的樹枝的長度,可以了解不同的基因或蛋白質以什麼方式和速率進化。

而無根樹只反映分類單元之間的距離,而不涉及誰是誰的祖先問題。

做有根樹需要指定外類群。所謂外類群,就是你所研究的內容之外的一個群。

1998 年,伍斯提出了一個涵蓋整個生命界的系統樹。

物種樹是基於每個物種整體的進化關系,也就是基於整個基因組構建的,而分子樹是基於不同物種里某一個基因或蛋白質序列之間的關系構建的。

4.4系統發生樹的構建

從實用的角度,建議使用 最大似然法 。因為這種方法無論從速度還是准確度都比較適中。

最近鄰居法雖然算得快,但是當序列多,彼此差別小的時候,這種方法不適合。

最大簡約法,似乎是個掉空里的方法,高不成低不就,所以很少有人使用。

貝葉斯法不是所有的建樹軟體都提供,演算法開發上還有待提高,而且計算時間過長。

目前流行的建樹軟體,PHILIP 和 MEGA,基本能夠包括上述所有演算法。

以非加權分組平均法(UPGMA 法)為例,介紹如何通過計算所有序列兩兩間的距離,再根據距離遠近構建系統發生樹。序列兩兩間的距離可以用雙序列比對得出的一致度/相似度代表,或用其他簡化值代替。

經單鹼基計算後,AB序列距離最小。按0.5,0.5長度構建AB的的系統發生樹。

將AB看成整體,分別計算C、D的距離。在新表中,最小距離為C、D。按1,1距離進行構建C、D的系統發生樹

將CD與AB進行比較,為3,構建1.5,1.5距離的系統發生樹。完成四條序列的建樹。

序列的選取要遵循以下原則:
1)如果 DNA 序列兩兩間的一致度≥70%,選用 DNA 序列。
因為,如果 DNA 序列都如此相似,它們對應的蛋白質序列會相似到幾乎看不出區別。這對於構建系統發生樹是不利的。所以這種情況選用 DNA 序列,而不選蛋白質序列。

2)如果 DNA 序列兩兩間的一致度<70%,DNA 序列和蛋白質序列都可以選用

1)軟體免費;
2)軟體在默認設置下建樹的效果就很好;
3)軟體被業界普遍認可,做出結果可以用於文章發表;
4)軟體支持多操作系統,而且安裝簡單。

MEGA7 是完全的圖形化界面操作( http://www.megasoftware.net/ )。

示例
在接下來的例子里我們要為附件中 TIR.fasta 里的序列構建 NJ 樹。
TIR.fasta 里存儲了 10 條人的不同 Toll 樣受體胞內域的氨基酸序列。只有具有一定親緣關系,也就是彼此比較相似,但又存在一定差別的序列拿來做多序列比對,或拿來構建系統發生樹才有意義。

File輸入數據
Align方式打開文件

成功導入後,排列不整齊

選擇「Align」之後,在彈出的 Alignment Explorer窗口上點擊 Alignment Align by ClustalW。

MEGA 提供 ClustalW 和 Muscle 兩種多序列比對方法。
這里選擇熟悉的 ClustalW 方法。彈出窗口詢問「Nothing selected for alignment.Select all? (是否要選擇所有序列來做多序列比對) 」,選擇 OK。

MEGA 的所有默認參數都不是隨便設置的,這些經過反復考量默認設置好的參數保證了 MEGA 傻瓜機全自動檔的品質。

所以,當你無從下手的時候,直接點 OK,接受這些默認參數,開始計算多序列比對。

Alignment Explorer 窗口上點 Data 》 Export Alignment 》MEGA Format。注意這里一定選 MEGA format 以方便
MEGA 繼續加工。其他格式適用於其他軟體。

多序列中,出現最多的字母,為共有序列

點擊C按鈕,出現保守序列,標黃色

點擊V按鈕,標黃不保守的列,可以取消打勾淘汰序列,不參與建樹

點擊分頁,創建分組

點彩色方塊,修改為短名字。名字來源於fasta的>標題

准備工作全部完成。

選 Neighbor Joining(最近鄰居法)

點擊yes,是使用TIR.meg的數據。

參數設置,影響樹的構造,一般默認建樹後,重新調整參數,讓樹更美觀。

第一個參數:
Test of Pylogery 建樹的檢驗方法設置,默認為不進行檢驗,檢驗方法,可以選常用的 Bootstrap method(步長檢驗)
並設置檢驗的倍數,通常設為500。

步長檢驗是根據所選的建樹方法,計算並繪制指定次數株系統發生樹。因為大多數建樹方法的核心演算法都是統計概率模型,所以每次計算出的樹都會有所差別。而建好的系統發生樹上每個節點上都會標記一個數字,它代表了指定次數次計算所得出的系統發生樹中有百分之多少棵樹都含有這一節點。一般來說,絕大多數節點上的數值都大於 70%的樹才可信。個別低於 70%的節點可以暫且容忍,或通過添加,刪減序列來改善質量。

第二個參數:
Substitution Model。它是選擇計算遺傳距離時使用的計算模型。理論上應該嘗試各種模型,根據檢驗結果選擇最合適的模型進行計算。但在實際操作中,可先嘗試選用較簡單的距離模型,比如 p-distance。

第三個參數是 Gap/Missing Data Treatment。
大多數建樹方法會要求刪除多序列比對中含有空位的列。但是根據遺傳距離度量方法的不同,刪除原則也不同。如果是以序列間不同殘基的個數來度量遺傳距離的話,這里需要選擇 Complete deletion(全部刪除)。如果是其他方
法,比如這里選用的 NJ 方法,可以選擇 Partial deletion(部分刪除)。刪除程度定在 50%,即,保留一半含有空位的列。

按compute,開始計算系統發生樹。

這個窗口裡有兩個標簽頁。
第一個是 Original Tree(原始樹),
第二個是 Bootstrap consensus tree(步長檢驗合並出來的樹)。

當前構
建的這株系統發生樹中,絕大多數節點處的數值都是≥70 的,所以這株樹整體上是可信的。

Original Tree 是步長檢驗構建的 500 株樹中的一株,未經過多棵樹合並,所以樹枝的長短可以精確代表遺傳距離。

比如,TLR5 似乎脫離了CM 組,成為了外類群,從而確定了樹根。

❾ 請問學生物工程主要用電腦做什麼需要什麼配置的電腦,對顯卡的要求高嗎買核顯的電腦足夠用嗎

如果學生學習使用或者工作使用的話,最好還是選擇。不要配配核顯的電腦比較好一些。因為如果遇到制圖之類的。核顯電腦達不到要求。顯卡至少應該配備RTX2060。