㈠ 删除数据文件data中重复的数据
第一行没有数据,应该是你导入的文件到数据库有一条空数据.避免可以通过where 加条件把这条语句过滤掉即可.
能否把数据库运行的截图贴出来,这样方便尽快帮你找到原因.
㈡ 生物信息学:序列分析、结构预测与分子动力模拟 问题
该物种通过使用NCBI-blast的结果显示与停乳链球菌似马亚种(Streptococcus dysgalactiae equisimilis)中的一段序列的相似性最高,差异只在该序列nt.18位置上。
在该物种有较多亚型,单就相似性最高的来看,就有3种亚型,有两条中显示其位于znuA基因或其前导,有一条来自adcA基因前导,对应的蛋白分别是high-affinity zinc uptake system protein ZnuA / high-affinity zinc uptake system protein znuA precursor, 和 Zinc-binding protein adcA Flags: Precursor。
其功能是:ABC-type metal ion transport system, periplasmic component/surface adhesin
关于蛋白质的详细信息还请自行检索PDB
http://www.rcsb.org/pdb/home/home.do
㈢ .txt数据读取 写入数据库 详细代码
写入的时候:
byte[]buffer = File.ReadAllBytes("图片路径");
cmd.Parameters.Add("@myphoto", SqlDbType.Image);
SqlParameter sp = cmd.Parameters[0]; //假设只有一个字段写入
sp.Value = buffer;
取出:
comm.CommandText = "select top 1 picture from info";//因为你用ExecuteScaler,只取出第一行第一列的东西。
byte[] data = (byte[])comm.ExecuteScalar();
MemoryStream ms = new MemoryStream(data);
Image image = Image.FromStream(ms);
return image;
㈣ 什么是Genbank,它的主要用途是什么
GenBank 概述
· 什么是GenBank? GenBank 是一个有来自于70,000多种生物的核苷酸序列的数据库。每条纪录都有编码区(CDS)特征的注释,还包括氨基酸的翻译。GenBank属于一个序列数据库的国际合作组织,包括EMBL和DDBJ。
· 纪录样本 - 关于GenBank的各个字段的详细描述,以及同Entrez搜索字段的交叉索引。
· 访问GenBank - 通过 Entrez Nucleotides 来查询。用 accession number,作者姓名,物种,基因/蛋白名字,还有许多其他的文本术语来查询。关于 Entrez 更多的信息请看下文。用 BLAST 来在 GenBank 和其他数据库中进行序列相似搜索。用E-mail来访问Entrez 和 BLAST 可以通过 Query 和 BLAST 服务器。另外一种选择是可以用 FTP 下载整个的 GenBank 和更新数据。
· 增长统计 - 参见公布通知的2.2.6(每个分类的统计),2.2.7(每个物种的统计),2.2.8(GenBank增长)小节。
· 公布通知,最新 - 最近和即将有的变化,GenBank 的分类,数据增长统计,GenBank 的引用。
· 公布通知,旧 - 同上相同,是过去公布的统计。
· 遗传密码 - 15个遗传密码的概要。用来确保GenBank中纪录的编码序列被正确的翻译。
向GenBank提交数据
· 关于提交序列数据,收到 accession number,和对纪录作更新的一般信息。
· BankIt - 用于一条或者少数条提交的基于WWW的提交工具软件。(请在提交前用 VecScreen 去除载体)
· Sequin - 提交软件程序,用于一条或者很多条的提交,长序列,完整基因组,alignments,人群/种系/突变研究的提交。可以懒⑹褂茫�蛘哂没�赥CP/IP的"network aware"模式,可以链接到其他NCBI的资源和软件比如Entrez和PowerBLAST。(请在提交前用VecScreen去除载体)
· ESTs - 表达序列标签,短的、单次(测序)阅读的cDNA序列。也包括来自于差异显示和 RACE 实验的 cDNA 序列。
· GSSs - 基因组调查序列,短的、单次(测序)阅读的cDNA序列,exon trap 获得的序列,cosmid/BAC/YAC 末端,及其他。
· HTGs - 来自于大规模测序中心的高通量基因组序列,未完成的(阶段0,1,2)和完成的(阶段3)序列。(注意:完成的人类的HTG序列可以同时在 GenBank 和 Human Genome Sequencing 页面上访问。)
· STSs - 序列标签位点。短的在基因组上可以被唯一操作的序列,用于产生作图位点。
· 注:SNPs - 人类的和其他物种的遗传变异数据可以提交到NCBI数据库的单核苷酸多态性库中(dbSNP)。
国际核苷酸序列数据库合作组织
· GenBank,DDBJ,EMBL - 合作计划的概述,并链接到相应的主页。GenBank,DDBJ(DNA Data Bank of Japan),and EMBL (European Molecular Biology Laboratory)数据库共享的数据是每天都交换的,因此他们是相等的。数据纪录的格式和搜索方式可能会不一样,但是accession number,序列数据和注解都是一模一样的。即,你可以用accession number U12345在GenBank,DDBJ或EMBL中查找相应纪录,得到的结果是完全一样的序列数据,参考内容等等。
· DDBJ/EMBJ/GenBank 特性表 - 特性表格式和标准被合作数据库用在序列记录的注释上,使得数据共享成为可能,包括详细的描述生物特性和特性限定语的附录,以及IUPAC规定的核苷酸和氨基酸的代号。
FTP GenBank 及每日更新
· GenBank普通文件格式 - 参见GenBank记录样本和在GenBank公布通知中的详细描述,下载大多数最近的完全公告和日常积累或非积累更新数据。
· ASN.1格式 - 摘要句法记号1,国际标准组织(ISO)数据表示格式,下载大多数最近的完全公告和日常积累或非积累更新数据。
· FASTA格式 - 定义行号后只跟随序列数据(示例),参见描述数据库的readme文件,包括nt.Z(每天更新的非冗余BLAST核酸数据库,包括GenBank+EMBL+DDBJ+PDB序列,但是不包括EST, STS, GSS, or HTGS序列),nr.Z(每日更新的非冗余蛋白质),est.Z, gss.Z, htg.Z, sts.Z,和其它文件。
http://www.bioon.com/biology/Print.asp?ArticleID=1256
㈤ 各位大神,帮忙解决一下下面的生物信息学题目吧,我实在看不懂啊,急急急,回复相关主题即给分,采纳追分
(1)在公共DNA数据库(比如GenBank)中有多少玉米相关的条目(entries)?在数据库中与玉米相关数据中有多少Waxy (granule-bound starch synthase)基因序列?
(2)SSH实验得到了一个未知序列,请在公共数据库中找到最佳匹配(hit)(其实就是做比对,blast),然后预测潜在的功能。(结构相似性与功能相似性)
(3)用动态算法(指定了这个算法:Needleman-Wunsch algorithm)对以下序列进行全局比对,打分系统用BLOSUM50空位罚分8。(需要你去了解这个算法,然后用程序实现应用到比对中,最后得出最佳的匹配方案得到结果)
(4) 在竹子的基因组片段中找基因
(5) 在植物抗病基因中找一致性序列(domains/motifs)(这个你可以用寻找motif的软件工具,如MEME)
(6) 构建植物抗病基因的系统发生树
(7) 写一篇近两年关于谷物类基因或者人类基因组相关的综述。
P.S. LZ你这个是课程结束作业么,工作量不小啊
㈥ genbank中来自cathepsin l的序列记录约有多少
GENBANK序列数据库 GENBANK是美国国立卫生研究院(NIH)维护的基因序列数据库,汇集并注释了所有公开的核酸以及蛋白质序列。每个纪录代表了一个单独的、连续的、带有注释的DNA或RNA片段。目前GENBANK中所有的纪录均来自于最初作者向DNA数据库的直接提交。 蛋白质数据库: 60年代初,DAYHOFF和他的同事们收集了所有当时已知的氨基酸序列,这就是《蛋白质序列与结构图册》。这一蛋白质数据库后来成为蛋白质信息资源PIR。 核苷酸数据库: 1982年在欧洲分子生物学实验室(EMBL)诞生,随即就开始了一个数据库爆炸的时代。后来NIH搞了GENBANK。日本的DNA数据库(DDBJ)加入了数据收集的合作。国际DNA序列数据库合作计划。规定了数据记录和更新的规则。 国际核苷酸序列数据库合作成员GENBANK--DDBJ--EMBL。GENBANK指的是DDBJ/EMBL/GENBANK 开发利用这些信息的工具(如NCBI的信息检索系统 ENTREZ a href=" http://www.NCBI.NLM.NIH.GOV/ENTREZ/ " http://www.NCBI.NLM.NIH.GOV/ENTREZ//a ) 编码序列(CDS): 大多数蛋白质序列都不是直接由实验确定的,而是通过DNA序列得到的。这种方法需要进行大量的实验、计算以及相似性比对工作。他也赋予一个产物名称,或者功能说明(通过主观的对相似性比对的分析)。 数据库的格式与内容: 数据库被用来存放原始数据和一系列附加的信息。不同的检索工具和程序利用了这些信息中的不同部分。 FASTA 格式:广泛应用于许多分子生物学软件包之中。作为最简单的情况,大于号(>)表示一个新文件的开始。通常60个字符一行。 >GB|AF150991|AF150991 TRICHOPLUSIA NI SINGLE CAPSID NUCLEAR POLYHEDROSIS VIRUS.ENSURES GREATER OCCLUSION BODY STABILITYPRODUCT--P10 / P10 PROTEIN >GB|AF275264|AF275264 HELICOVERPA ZEA NUCLEAR POLYHEDROSIS VIRUS.COMPLEMENTPRODUCT--E66-LIKE PROTEIN (PARTIAL DNA SEQUENCE) >GB|AF275264|AF275264 HELICOVERPA ZEA NUCLEAR POLYHEDROSIS VIRUS.COMPLEMENTPRODUCT--P13 >GB|AF275264|AF275264 HELICOVERPA ZEA NUCLEAR POLYHEDROSIS VIRUS.PRODUCT--ORF50-LIKE PROTEIN ASN.1 GENBANK FLATFILE: 头部: 始于LOCUS行---LOCUS名称,序列长度,生物分子的类型(SS或DS DNA,RNA,TRNA,RRNA, MRNA),GENBANK分类码,数据公开日期 DEFINITION行---总结纪录的生物意义。 检索号---是从数据库中检索一个记录的主要关键词。格式:1+5或2+6。所有的GENBANK记录都只有一个单独的ACCESSION行。 NID---行表示核苷酸序列的GI号码(GENINFO IDENTIFIER)。一个GI号码对应于一个核苷酸序列。当序列改变时,GI号也改变,但检索号不变。 KEYWORDS--- SOURCS--- ORGANISM--- REFERENCE--- AUTHORS--- TITLE--- JOURNAL---
㈦ Leptin序列大小,我想知道Leptin有多少bp,请帮忙回一下
登陆www.ncbi.nlm.gov,在核苷酸数据库中搜索leptin即得结果。人类Leptin的mRNA登录号为NM_000230.2,
3444 bp
Summary: This gene encodes a protein that is secreted by white
adipocytes, and which plays a major role in the regulation of body
weight. This protein, which acts through the leptin receptor,
functions as part of a signaling pathway that can inhibit food
intake and/or regulate energy expenditure to maintain constancy of
the adipose mass. This protein also has several endocrine
functions, and is involved in the regulation of immune and
inflammatory responses, hematopoiesis, angiogenesis and wound
healing. Mutations in this gene and/or its regulatory regions cause
severe obesity, and morbid obesity with hypogonadism. This gene has
also been linked to type 2 diabetes mellitus development. [provided
by RefSeq].
ORIGIN
1 gtaggaatcg cagcgccagc ggttgcaagg cccaagaagc ccatcctggg aaggaaaatg
61 cattggggaa ccctgtgcgg attcttgtgg ctttggccct atcttttcta tgtccaagct
121 gtgcccatcc aaaaagtcca agatgacacc aaaaccctca tcaagacaat tgtcaccagg
181 atcaatgaca tttcacacac gcagtcagtc tcctccaaac agaaagtcac cggtttggac
241 ttcattcctg ggctccaccc catcctgacc ttatccaaga tggaccagac actggcagtc
301 taccaacaga tcctcaccag tatgccttcc agaaacgtga tccaaatatc caacgacctg
361 gagaacctcc gggatcttct tcacgtgctg gccttctcta agagctgcca cttgccctgg
421 gccagtggcc tggagacctt ggacagcctg gggggtgtcc tggaagcttc aggctactcc
481 acagaggtgg tggccctgag caggctgcag gggtctctgc aggacatgct gtggcagctg
541 gacctcagcc ctgggtgctg aggccttgaa ggtcactctt cctgcaagga ctacgttaag
601 ggaaggaact ctggcttcca ggtatctcca ggattgaaga gcattgcatg gacacccctt
661 atccaggact ctgtcaattt ccctgactcc tctaagccac tcttccaaag gcataagacc
721 ctaagcctcc ttttgcttga aaccaaagat atatacacag gatcctattc tcaccaggaa
781 gggggtccac ccagcaaaga gtgggctgca tctgggattc ccaccaaggt cttcagccat
841 caacaagagt tgtcttgtcc cctcttgacc catctccccc tcactgaatg cctcaatgtg
901 accaggggtg atttcagaga gggcagaggg gtaggcagag cctttggatg accagaacaa
961 ggttccctct gagaattcca aggagttcca tgaagaccac atccacacac gcaggaactc
1021 ccagcaacac aagctggaag cacatgttta tttattctgc attttattct ggatggattt
1081 gaagcaaagc accagcttct ccaggctctt tggggtcagc cagggccagg ggtctccctg
1141 gagtgcagtt tccaatccca tagatgggtc tggctgagct gaacccattt tgagtgactc
1201 gagggttggg ttcatctgag caagagctgg caaaggtggc tctccagtta gttctctcgt
1261 aactggtttc atttctactg tgactgatgt tacatcacag tgtttgcaat ggtgttgccc
1321 tgagtggatc tccaaggacc aggttatttt aaaaagattt gttttgtcaa gtgtcatatg
1381 taggtgtctg cacccagggg tggggaatgt ttgggcagaa gggagaagga tctagaatgt
1441 gttttctgaa taacatttgt gtggtgggtt ctttggaagg agtgagatca ttttcttatc
1501 ttctgcaatt gcttaggatg tttttcatga aaatagctct ttcagggggg ttgtgaggcc
1561 tggccaggca ccccctggag agaagtttct ggccctggct gaccccaaag agcctggaga
1621 agctgatgct ttgcttcaaa tccatccaga ataaaacgca aagggctgaa agccatttgt
1681 tggggcagtg gtaagctctg gctttctccg actgctaggg agtggtcttt cctatcatgg
1741 agtgacggtc ccacactggt gactgcgatc ttcagagcag gggtccttgg tgtgaccctc
1801 tgaatggtcc agggttgatc acactctggg tttattacat ggcagtgttc ctatttgggg
1861 cttgcatgcc aaattgtagt tcttgtctga ttggctcacc caagcaaggc caaaattacc
1921 aaaaatcttg gggggttttt actccagtgg tgaagaaaac tcctttagca ggtggtcctg
1981 agacctgaca agcactgcta ggcgagtgcc aggactcccc aggccaggcc accaggatgg
2041 cccttcccac tggaggtcac attcaggaag atgaaagagg aggtttgggg tctgccacca
2101 tcctgctgct gtgtttttgc tatcacacag tgggtggtgg atctgtccaa ggaaacttga
2161 atcaaagcag ttaactttaa gactgagcac ctgcttcatg ctcagccctg actggtgcta
2221 taggctggag aagctcaccc aataaacatt aagattgagg cctgccctca gggatcttgc
2281 attcccagtg gtcaaaccgc actcacccat gtgccaaggt ggggtattta ccacagcagc
2341 tgaacagcca aatgcatggt gcagttgaca gcaggtggga aatggtatga gctgaggggg
2401 gccgtgccca ggggcccaca gggaaccctg cttgcacttt gtaacatgtt tacttttcag
2461 ggcatcttag cttctattat agccacatcc ctttgaaaca agataactga gaatttaaaa
2521 ataagaaaat acataagacc ataacagcca acaggtggca ggaccaggac tatagcccag
2581 gtcctctgat acccagagca ttacgtgagc caggtaatga gggactggaa ccagggagac
2641 cgagcgcttt ctggaaaaga ggagtttcga ggtagagttt gaaggaggtg agggatgtga
2701 attgcctgca gagagaagcc tgttttgttg gaaggtttgg tgtgtggaga tgcagaggta
2761 aaagtgtgag cagtgagtta cagcgagagg cagagaaaga agagacagga gggcaagggc
2821 catgctgaag ggaccttgaa gggtaaagaa gtttgatatt aaaggagtta agagtagcaa
2881 gttctagaga agaggctggt gctgtggcca gggtgagagc tgctctggaa aatgtgaccc
2941 agatcctcac aaccacctaa tcaggctgag gtgtcttaag ccttttgctc acaaaacctg
3001 gcacaatggc taattcccag agtgtgaaac ttcctaagta taaatggttg tctgtttttg
3061 taacttaaaa aaaaaaaaaa aagtttggcc gggtgcggtg gctcacgcct gtaatcccag
3121 cactttggga ggccaaggtg gggggatcac aaggtcacta gatggcgagc atcctggcca
3181 acatggtgaa accccgtctc tactaaaaac acaaaagtta gctgagcgtg gtggcgggcg
3241 cctgtagtcc cagccactcg ggaggctgag acaggagaat cgcttaaacc tgggaggcgg
3301 agagtacagt gagccaagat cgcgccactg cactccggcc tgatgacaga gcgagattcc
3361 gtcttaaaaa aaaaaaaaaa aaagtttgtt tttaaaaaaa tctaaataaa ataactttgc
3421 cccctgcaaa aaaaaaaaaa aaaa
//
LDLSPGC
㈧ 经测序后,所得序列序列如下。如何知道在NCBI上的注册号是多少呢知道的帮个忙。解决后,再重赏
进NCBI的BLAST页面,输入你的序列,选择数据库类型,不清楚的一般选nr数据库,点BLAST按钮
㈨ ncbi里病毒基因为什么是dna序列啊
要回到这个问题,还要从ncbi网站的GenBank数据库的创建说起。GenBank数据库是用来收集生物学基因测序的结果。如果你学过分子生物学,做过PCR试验就会知道RNA非常不稳定,容易讲解。PCR试验的模板和产物都是DNA序列。另外,也许还会有疑问,DNA序列是双链,数据库里的序列是哪一条。这是分子生物学的约定俗称的习惯,数据库里是正义链,也就是从左到右是3'到5'。也就是DNA酶复制的方向。
因为GenBank数据库保存的都是原始数据,所以就没有必要转换成RNA序列,如果你有特殊的序列分析需求(例如RNA结构预测)你可以用t-u转换即可。