當前位置:首頁 » 數據倉庫 » ncbinr資料庫
擴展閱讀
webinf下怎麼引入js 2023-08-31 21:54:13
堡壘機怎麼打開web 2023-08-31 21:54:11

ncbinr資料庫

發布時間: 2022-08-30 06:57:31

⑴ NCBI選擇資料庫

原理很簡單後者是前者的子集。chromosome只包含所有已經測序的基因組數據。估計你的序列可能只是在高等生物中保守,所以才會出現選擇chromosome資料庫時相似數量下降非常多。

在做BLAST的時候,我們通常需要根據不同的目的選擇不同的資料庫。例如,要看一下測的序列是不是子集所期望的序列,以及,那nr資料庫是最好的選擇。至於以誰為准,因需要解決的問題而異。讀一下blast每個資料庫的定義,對於你選擇資料庫最有幫助。有一個基本原則是:nr資料庫可以滿足絕大多數的需求。少數特殊需求可以通過其他資料庫完成,例如最近30天內的更新序列,搜索新基因這是必查的;題目中的chromosome資料庫是只包含了全基因組或全染色體的數據。詳參NCBI Blast說明。

http://www.ncbi.nlm.nih.gov/BLAST/blastcgihelp.shtml#nucleotide_databases

⑵ 如何在NCBI上查鹵代酶的基因序列,最好有詳細步驟,再有如何篩選就更好了,鞠躬,感激不盡......

http://www.ncbi.nlm.nih.gov/,在下拉菜單中選擇gene或者nucleotide,在搜索欄輸入要查的基因的全稱或者縮寫 再輸入種屬名,比如人的就輸入homo點搜索,結果中找到你要的基因條目,進去有詳細介紹,全序列,mRNA序列,蛋白序列的鏈接
你要從什麼來源的DNA擴增序列,人的還是動物的?具體的基因名字說一下

⑶ 已知多肽序列怎樣在ncbi中比對到它可能對應的蛋白質

在NCBI里選擇blastp,然後NR資料庫

⑷ 簡並引物 設計軟體

簡並引物設計的方法
簡並引物是指用來編碼一段短肽序列的不同鹼基序列的混合物。主要用來同源克隆未知的基因,或用來分析某一種基因多態性的一種方法。簡並引物設計的常見程序如下:1. 利用NCBI搜索不同物種中同一目的基因的蛋白或cDNA編碼的氨基酸序列。
因為密碼子的關系,不同的核酸序列可能表達的氨基酸序列是相同的,所以氨基酸序列才是真正保守的。首先利用NCBI的Entrez檢索系統,查找到一條相關序列即可。隨後利用這一序列使用BLASTp(通過蛋白查蛋白),在整個Nr資料庫中中查找與之相似的氨基酸序列。
2. 對所找到的序列進行多序列比對。
將搜索到的同一基因的不同氨基酸序列進行多序列比對,最好採用局部比對程序如BLOCK,網址:http://bioinformatics.weizmann.a ... ww/make_blocks.html。也可選工具有Clustal W。
3. 確定合適的保守區域。
設計簡並引物至少需要上下游各有一個保守區域,且兩個保守區域相距50~400個氨基酸為宜,使得pcr產物在150~1200bp之間,最重要的是每一個保守區域至少有4個氨基酸。若比對結果保守性不是很強很可能找不到4個氨基酸的保守區域,這時可以根據物種的親緣關系,選擇親緣相近的物種進行二次比對,若保守性仍達不到要求,則需進行三次比對。總之,究竟要選多少序列來比對,要根據前一次比對的結果反復調整。最終目的就是至少有兩個4個氨基酸且兩者間距離合適的保守區域。
4. 利用軟體設計引物。
當得到保守區域後,就可以利用專業的軟體來設計引物了,如利用primer 5.0進行設計。但最好使用專門的簡並引物設計的方法如:CODEHOP(網址:http://bioinformatics.weizmann.ac.il/blocks/codehop.html),GeneFisher2(網址:http://bibiserv.techfak.uni-bielefeld.de/genefisher2/)。
在這里我們特別值得說明的是CODEHOP方法,該方法要求的保守區較短,而且能有效的降低引物的兼並度,是一種非常有效的方法。該方法主要是通過將簡並區放在3′末端,並在5′端設計一個一致性的區域來降低兼並度,詳見http://www.helixnet.cn/thread-8194-1-1.html。
5. 對引物的修飾
若得到的引物為:5-NAGSGNGCDTTANCABK-3,則其簡並度=4×2×4×3×4×3×2=2304,很明顯該條引物的簡並度太高不利於 pcr。我們可以通過用次黃嘌呤代替N(因為次黃嘌呤能很好的和4種鹼基配對)和根據物種密碼子偏好這兩種方法來降低簡並度(有個查密碼子偏好的資料庫網址:http://www.helixnet.cn/viewthrea ... ht=%C3%DC%C2%EB%D7% D3)。
注意:該方法設計出來簡並引物對,適用於用於比對的氨基酸序列所屬物種及與這些物種分類地位相同的其他物種。
引物中符號說明:
A代表A
C 代表C
G代表 G
T 代表T
M 代表A or C
R 代表A or G
W代表 A or T
S代表 C or G
Y代表 C or T
K代表 G or T
V 代表A or C or G
H 代表A or C or T
D代表 A or G or T
B 代表C or G or T
N代表 G or A or T or C

⑸ NCBI BLAST search of P12653-00-00-01 against nr 是什麼意思

樓上的答非所問。

這句話的意思是在NCBI資料庫中搜索一個編號為「P12653-00-00-01」的片段的反義核苷酸序列。

⑹ 怎麼從從ncbi的ftp上下了windows的本地blast

This document describes the "BLAST" databases available on the NCBI
FTP site under the /blast/db directory. The direct URL is:
ftp://ftp.ncbi.nih.gov/blast/db 本地BLAST資料庫下載地址
1. General Introction
NCBI BLAST home pages (http://www.ncbi.nih.gov/BLAST/) use a standard
set of BLAST databases for Nucleotide, Protein, and Translated BLAST
searches. These databases are made available in the /blast/db directory as
compressed archives (ftp://ftp.ncbi.nih.gov/blast/db/) in pre-formatted
format.這些資料庫是已經預先進行過makeblastdb命令的,下載後可以直接使用
The FASTA databases reside under the /blast/db/FASTA directory.
The pre-formatted databases offer the following advantages:
* The pre-formatted databases are smaller in size and therefore are
faster to download;
* Sequences in FASTA format can be generated from the pre-formatted
databases by the fastacmd utility; 可以從這些資料庫文件中導出FASTA文件
* A convenient script (update_blastdb.pl) is available to download
the pre-formatted databases from the NCBI ftp site; 可用該腳本升級資料庫
* Pre-formatting removes the need to run formatdb; 無需再運行建庫命令行
* Taxonomy ids are available for each database entry.
Pre-formatted databases must be downloaded using the update_blastdb.pl
script or via FTP in binary mode. Documentation for the update_blastdb.pl
script can be obtained by running the script without any arguments (perl is
required). 下載資料庫時,需要用到perl腳本update_blastdb.pl,或使用FTP下載工具
The compressed files downloaded must be inflated with gzip or other decompress
tools. The BLAST database files can then be extracted out of the resulting
tar file using tar program on Unix/Linux or WinZip and StuffIt Expander
on Windows and Macintosh platforms, respectively.下載的資料庫為壓縮包,要解壓縮
Large databases are formatted in multiple 1 Gigabytes volumes, which
are named using the database.##.tar.gz convention. All relevant volumes
are required. An alias file is provided so that the database can be called
using the alias name without the extension (.nal or .pal). For example,
to call est database, simply use "-d est" option in the commandline
(without the quotes). 大的資料庫通常分為多個壓縮包,例如nr庫有11個壓縮包。所有的相關壓縮包
都要下載,解壓。解壓縮會生成對應的庫文件,同時生成一個nr.pal文件。檢索nr庫時輸入-d nr 即可。
Certain databases are subsets of a larger parental database. For those
databases, alias and mask files, rather than actual databases, are provided.
The mask file needs the parent database to function properly. The parent
databases should be generated on the same day as the mask file. For
example, to use swissprot pre-formatted database, swissprot.tar.gz, one
will need to get the nr.tar.gz with the same date stamp. 有些資料庫是大資料庫
的子集,使用這些子集資料庫時,必須同時下載其(相同日期的)大資料庫
Additional BLAST databases that are not provided in pre-formatted
formats are available in the FASTA subdirectory. 有些BLAST資料庫沒有提供預先建庫
的文件,這些資料庫可以從FASTA文件夾里下載 For genomic BLAST
databases, please check the genomes ftp directory at:
ftp://ftp.ncbi.nih.gov/genomes/ 在這里下載基因組BLAST資料庫

2. Contents of the /blast/db/ directory
The pre-formatted BLAST databases are archived in this directory. The
name of these databases and their contents are listed below.
資料庫名稱 資料庫內容
+----------------------+-----------------------------------------------+
|File Name | Content Description |
+----------------------+-----------------------------------------------+
/FASTA | subdirectory for FASTA formatted sequences
存放FASTA格式序列的子文件夾

README | README for this subdirectory (this file)
env_nr.*tar.gz | Environmental protein sequences 環境蛋白序列
env_nt.*tar.gz | Environmental nucleotide sequences 環境核苷酸序列
est.*tar.gz | volumes of the formatted est database
| from the EST division of GenBank, EMBL,
| and DDBJ. EST資料庫

⑺ ncbi database nr 什麼意思

nr是以下這些資料庫的並集:

All non-rendant GenBank CDS translations+PDB+SwissProt+PIR+PRF excluding environmental samples from WGS projects

⑻ 轉錄測序中的nr,nt,swissprot,cog,kegg,go分別是什麼意思

NR庫屬於非冗餘蛋白序列資料庫,是NCBI官方的蛋白序列資料庫,數據來源於GenPept、SwissProt、PIR、PDF、PDB以及NCBI RefSeq,是默認的蛋白比對資料庫。
NT資料庫是美國國家生物技術信息中心NCBI官方的核酸序列資料庫,NT庫屬於非冗餘核酸序列資料庫,數據來源於GenBank、EMBL 以及 DDBJ,是NCBI默認的核酸blast比對資料庫。
SwissProt資料庫是檢查過的、手工注釋的蛋白資料庫,我們將Unigene注釋到SwissProt資料庫,以得到更加高質量的注釋結果。
COG (clusters of orthologous groups)主要是原核生物和單細胞真核生物的直系同源物,KOG(clusters of euKaryotic Orthologous Groups)資料庫包含了7個完整基因組的真核生物的直系同源家族蛋白, 構成每個 KOG 的蛋白集是被假定為來自於一個祖先蛋白,根據系統發生進行分類,一般COG指原核生物,KOG指真核生物,KOG與COG提供了相似的基因同源物的分類信息。
KEGG (Kyoto Encyclopedia of Genes and Genomes) 是處理基因組、生物通路、疾病、葯物和化學物質之間聯系的集成資料庫。 KEGG用於生物信息研究等,包括基因組,代謝組學等其他組學的數據分析,涵蓋了Drug Development(葯物開發)、 Cellular Processes(細胞過程)、 Environmental Information Processing(環境信息處理)、Genetic Information Processing(遺傳信息處理)、 Human Diseases(人類疾病), Metabolism(代謝)、 Organismal Systems(有機系統)等方面。
GO( Gene Ontology ): 基因本體。生物技術的發展迅速,數據越來越多,不同資料庫命名標准不統一,為了解決不同的生物學資料庫可能會使用不同的術語的問題,從而基因本體聯合會(Gene Onotology Consortium)開發GO來描述基因在分子、細胞和組織水平的功能體現。GO的基本描述單元是GO terms。GO主要包括三個分支: 生物過程(biological processes)、分子功能(molecular function)和細胞組成(cellular components),用於描述基因產物的功能。GO中使用了is_a、part_of和regulates三種互作關系。

⑼ 轉錄組差異基因表達的nr注釋是什麼意思

NR是一個資料庫,是NCBI中蛋白質資料庫,集合了許多其他資料庫中的蛋白質的注釋信息。差異基因注釋簡單來說就是把有表達差異的Unigene的物種、分子功能、生物學途徑等等信息通過從資料庫中比對,得到的結果。

⑽ Nr注釋是什麼意思

NR是NCBI下的一個蛋白質的資料庫,集合了許多其他資料庫中的蛋白質的注釋信息。