⑴ NCBI选择数据库
原理很简单后者是前者的子集。chromosome只包含所有已经测序的基因组数据。估计你的序列可能只是在高等生物中保守,所以才会出现选择chromosome数据库时相似数量下降非常多。
在做BLAST的时候,我们通常需要根据不同的目的选择不同的数据库。例如,要看一下测的序列是不是子集所期望的序列,以及,那nr数据库是最好的选择。至于以谁为准,因需要解决的问题而异。读一下blast每个数据库的定义,对于你选择数据库最有帮助。有一个基本原则是:nr数据库可以满足绝大多数的需求。少数特殊需求可以通过其他数据库完成,例如最近30天内的更新序列,搜索新基因这是必查的;题目中的chromosome数据库是只包含了全基因组或全染色体的数据。详参NCBI Blast说明。
http://www.ncbi.nlm.nih.gov/BLAST/blastcgihelp.shtml#nucleotide_databases
⑵ 如何在NCBI上查卤代酶的基因序列,最好有详细步骤,再有如何筛选就更好了,鞠躬,感激不尽......
http://www.ncbi.nlm.nih.gov/,在下拉菜单中选择gene或者nucleotide,在搜索栏输入要查的基因的全称或者缩写 再输入种属名,比如人的就输入homo点搜索,结果中找到你要的基因条目,进去有详细介绍,全序列,mRNA序列,蛋白序列的链接
你要从什么来源的DNA扩增序列,人的还是动物的?具体的基因名字说一下
⑶ 已知多肽序列怎样在ncbi中比对到它可能对应的蛋白质
在NCBI里选择blastp,然后NR数据库
⑷ 简并引物 设计软件
简并引物设计的方法
简并引物是指用来编码一段短肽序列的不同碱基序列的混合物。主要用来同源克隆未知的基因,或用来分析某一种基因多态性的一种方法。简并引物设计的常见程序如下:1. 利用NCBI搜索不同物种中同一目的基因的蛋白或cDNA编码的氨基酸序列。
因为密码子的关系,不同的核酸序列可能表达的氨基酸序列是相同的,所以氨基酸序列才是真正保守的。首先利用NCBI的Entrez检索系统,查找到一条相关序列即可。随后利用这一序列使用BLASTp(通过蛋白查蛋白),在整个Nr数据库中中查找与之相似的氨基酸序列。
2. 对所找到的序列进行多序列比对。
将搜索到的同一基因的不同氨基酸序列进行多序列比对,最好采用局部比对程序如BLOCK,网址:http://bioinformatics.weizmann.a ... ww/make_blocks.html。也可选工具有Clustal W。
3. 确定合适的保守区域。
设计简并引物至少需要上下游各有一个保守区域,且两个保守区域相距50~400个氨基酸为宜,使得pcr产物在150~1200bp之间,最重要的是每一个保守区域至少有4个氨基酸。若比对结果保守性不是很强很可能找不到4个氨基酸的保守区域,这时可以根据物种的亲缘关系,选择亲缘相近的物种进行二次比对,若保守性仍达不到要求,则需进行三次比对。总之,究竟要选多少序列来比对,要根据前一次比对的结果反复调整。最终目的就是至少有两个4个氨基酸且两者间距离合适的保守区域。
4. 利用软件设计引物。
当得到保守区域后,就可以利用专业的软件来设计引物了,如利用primer 5.0进行设计。但最好使用专门的简并引物设计的方法如:CODEHOP(网址:http://bioinformatics.weizmann.ac.il/blocks/codehop.html),GeneFisher2(网址:http://bibiserv.techfak.uni-bielefeld.de/genefisher2/)。
在这里我们特别值得说明的是CODEHOP方法,该方法要求的保守区较短,而且能有效的降低引物的兼并度,是一种非常有效的方法。该方法主要是通过将简并区放在3′末端,并在5′端设计一个一致性的区域来降低兼并度,详见http://www.helixnet.cn/thread-8194-1-1.html。
5. 对引物的修饰
若得到的引物为:5-NAGSGNGCDTTANCABK-3,则其简并度=4×2×4×3×4×3×2=2304,很明显该条引物的简并度太高不利于 pcr。我们可以通过用次黄嘌呤代替N(因为次黄嘌呤能很好的和4种碱基配对)和根据物种密码子偏好这两种方法来降低简并度(有个查密码子偏好的数据库网址:http://www.helixnet.cn/viewthrea ... ht=%C3%DC%C2%EB%D7% D3)。
注意:该方法设计出来简并引物对,适用于用于比对的氨基酸序列所属物种及与这些物种分类地位相同的其他物种。
引物中符号说明:
A代表A
C 代表C
G代表 G
T 代表T
M 代表A or C
R 代表A or G
W代表 A or T
S代表 C or G
Y代表 C or T
K代表 G or T
V 代表A or C or G
H 代表A or C or T
D代表 A or G or T
B 代表C or G or T
N代表 G or A or T or C
⑸ NCBI BLAST search of P12653-00-00-01 against nr 是什么意思
楼上的答非所问。
这句话的意思是在NCBI数据库中搜索一个编号为“P12653-00-00-01”的片段的反义核苷酸序列。
⑹ 怎么从从ncbi的ftp上下了windows的本地blast
This document describes the "BLAST" databases available on the NCBI
FTP site under the /blast/db directory. The direct URL is:
ftp://ftp.ncbi.nih.gov/blast/db 本地BLAST数据库下载地址
1. General Introction
NCBI BLAST home pages (http://www.ncbi.nih.gov/BLAST/) use a standard
set of BLAST databases for Nucleotide, Protein, and Translated BLAST
searches. These databases are made available in the /blast/db directory as
compressed archives (ftp://ftp.ncbi.nih.gov/blast/db/) in pre-formatted
format.这些数据库是已经预先进行过makeblastdb命令的,下载后可以直接使用
The FASTA databases reside under the /blast/db/FASTA directory.
The pre-formatted databases offer the following advantages:
* The pre-formatted databases are smaller in size and therefore are
faster to download;
* Sequences in FASTA format can be generated from the pre-formatted
databases by the fastacmd utility; 可以从这些数据库文件中导出FASTA文件
* A convenient script (update_blastdb.pl) is available to download
the pre-formatted databases from the NCBI ftp site; 可用该脚本升级数据库
* Pre-formatting removes the need to run formatdb; 无需再运行建库命令行
* Taxonomy ids are available for each database entry.
Pre-formatted databases must be downloaded using the update_blastdb.pl
script or via FTP in binary mode. Documentation for the update_blastdb.pl
script can be obtained by running the script without any arguments (perl is
required). 下载数据库时,需要用到perl脚本update_blastdb.pl,或使用FTP下载工具
The compressed files downloaded must be inflated with gzip or other decompress
tools. The BLAST database files can then be extracted out of the resulting
tar file using tar program on Unix/Linux or WinZip and StuffIt Expander
on Windows and Macintosh platforms, respectively.下载的数据库为压缩包,要解压缩
Large databases are formatted in multiple 1 Gigabytes volumes, which
are named using the database.##.tar.gz convention. All relevant volumes
are required. An alias file is provided so that the database can be called
using the alias name without the extension (.nal or .pal). For example,
to call est database, simply use "-d est" option in the commandline
(without the quotes). 大的数据库通常分为多个压缩包,例如nr库有11个压缩包。所有的相关压缩包
都要下载,解压。解压缩会生成对应的库文件,同时生成一个nr.pal文件。检索nr库时输入-d nr 即可。
Certain databases are subsets of a larger parental database. For those
databases, alias and mask files, rather than actual databases, are provided.
The mask file needs the parent database to function properly. The parent
databases should be generated on the same day as the mask file. For
example, to use swissprot pre-formatted database, swissprot.tar.gz, one
will need to get the nr.tar.gz with the same date stamp. 有些数据库是大数据库
的子集,使用这些子集数据库时,必须同时下载其(相同日期的)大数据库
Additional BLAST databases that are not provided in pre-formatted
formats are available in the FASTA subdirectory. 有些BLAST数据库没有提供预先建库
的文件,这些数据库可以从FASTA文件夹里下载 For genomic BLAST
databases, please check the genomes ftp directory at:
ftp://ftp.ncbi.nih.gov/genomes/ 在这里下载基因组BLAST数据库
2. Contents of the /blast/db/ directory
The pre-formatted BLAST databases are archived in this directory. The
name of these databases and their contents are listed below.
数据库名称 数据库内容
+----------------------+-----------------------------------------------+
|File Name | Content Description |
+----------------------+-----------------------------------------------+
/FASTA | subdirectory for FASTA formatted sequences
存放FASTA格式序列的子文件夹
README | README for this subdirectory (this file)
env_nr.*tar.gz | Environmental protein sequences 环境蛋白序列
env_nt.*tar.gz | Environmental nucleotide sequences 环境核苷酸序列
est.*tar.gz | volumes of the formatted est database
| from the EST division of GenBank, EMBL,
| and DDBJ. EST数据库
⑺ ncbi database nr 什么意思
nr是以下这些数据库的并集:
All non-rendant GenBank CDS translations+PDB+SwissProt+PIR+PRF excluding environmental samples from WGS projects
⑻ 转录测序中的nr,nt,swissprot,cog,kegg,go分别是什么意思
NR库属于非冗余蛋白序列数据库,是NCBI官方的蛋白序列数据库,数据来源于GenPept、SwissProt、PIR、PDF、PDB以及NCBI RefSeq,是默认的蛋白比对数据库。
NT数据库是美国国家生物技术信息中心NCBI官方的核酸序列数据库,NT库属于非冗余核酸序列数据库,数据来源于GenBank、EMBL 以及 DDBJ,是NCBI默认的核酸blast比对数据库。
SwissProt数据库是检查过的、手工注释的蛋白数据库,我们将Unigene注释到SwissProt数据库,以得到更加高质量的注释结果。
COG (clusters of orthologous groups)主要是原核生物和单细胞真核生物的直系同源物,KOG(clusters of euKaryotic Orthologous Groups)数据库包含了7个完整基因组的真核生物的直系同源家族蛋白, 构成每个 KOG 的蛋白集是被假定为来自于一个祖先蛋白,根据系统发生进行分类,一般COG指原核生物,KOG指真核生物,KOG与COG提供了相似的基因同源物的分类信息。
KEGG (Kyoto Encyclopedia of Genes and Genomes) 是处理基因组、生物通路、疾病、药物和化学物质之间联系的集成数据库。 KEGG用于生物信息研究等,包括基因组,代谢组学等其他组学的数据分析,涵盖了Drug Development(药物开发)、 Cellular Processes(细胞过程)、 Environmental Information Processing(环境信息处理)、Genetic Information Processing(遗传信息处理)、 Human Diseases(人类疾病), Metabolism(代谢)、 Organismal Systems(有机系统)等方面。
GO( Gene Ontology ): 基因本体。生物技术的发展迅速,数据越来越多,不同数据库命名标准不统一,为了解决不同的生物学数据库可能会使用不同的术语的问题,从而基因本体联合会(Gene Onotology Consortium)开发GO来描述基因在分子、细胞和组织水平的功能体现。GO的基本描述单元是GO terms。GO主要包括三个分支: 生物过程(biological processes)、分子功能(molecular function)和细胞组成(cellular components),用于描述基因产物的功能。GO中使用了is_a、part_of和regulates三种互作关系。
⑼ 转录组差异基因表达的nr注释是什么意思
NR是一个数据库,是NCBI中蛋白质数据库,集合了许多其他数据库中的蛋白质的注释信息。差异基因注释简单来说就是把有表达差异的Unigene的物种、分子功能、生物学途径等等信息通过从数据库中比对,得到的结果。
⑽ Nr注释是什么意思
NR是NCBI下的一个蛋白质的数据库,集合了许多其他数据库中的蛋白质的注释信息。