㈠ 刪除數據文件data中重復的數據
第一行沒有數據,應該是你導入的文件到資料庫有一條空數據.避免可以通過where 加條件把這條語句過濾掉即可.
能否把資料庫運行的截圖貼出來,這樣方便盡快幫你找到原因.
㈡ 生物信息學:序列分析、結構預測與分子動力模擬 問題
該物種通過使用NCBI-blast的結果顯示與停乳鏈球菌似馬亞種(Streptococcus dysgalactiae equisimilis)中的一段序列的相似性最高,差異只在該序列nt.18位置上。
在該物種有較多亞型,單就相似性最高的來看,就有3種亞型,有兩條中顯示其位於znuA基因或其前導,有一條來自adcA基因前導,對應的蛋白分別是high-affinity zinc uptake system protein ZnuA / high-affinity zinc uptake system protein znuA precursor, 和 Zinc-binding protein adcA Flags: Precursor。
其功能是:ABC-type metal ion transport system, periplasmic component/surface adhesin
關於蛋白質的詳細信息還請自行檢索PDB
http://www.rcsb.org/pdb/home/home.do
㈢ .txt數據讀取 寫入資料庫 詳細代碼
寫入的時候:
byte[]buffer = File.ReadAllBytes("圖片路徑");
cmd.Parameters.Add("@myphoto", SqlDbType.Image);
SqlParameter sp = cmd.Parameters[0]; //假設只有一個欄位寫入
sp.Value = buffer;
取出:
comm.CommandText = "select top 1 picture from info";//因為你用ExecuteScaler,只取出第一行第一列的東西。
byte[] data = (byte[])comm.ExecuteScalar();
MemoryStream ms = new MemoryStream(data);
Image image = Image.FromStream(ms);
return image;
㈣ 什麼是Genbank,它的主要用途是什麼
GenBank 概述
· 什麼是GenBank? GenBank 是一個有來自於70,000多種生物的核苷酸序列的資料庫。每條紀錄都有編碼區(CDS)特徵的注釋,還包括氨基酸的翻譯。GenBank屬於一個序列資料庫的國際合作組織,包括EMBL和DDBJ。
· 紀錄樣本 - 關於GenBank的各個欄位的詳細描述,以及同Entrez搜索欄位的交叉索引。
· 訪問GenBank - 通過 Entrez Nucleotides 來查詢。用 accession number,作者姓名,物種,基因/蛋白名字,還有許多其他的文本術語來查詢。關於 Entrez 更多的信息請看下文。用 BLAST 來在 GenBank 和其他資料庫中進行序列相似搜索。用E-mail來訪問Entrez 和 BLAST 可以通過 Query 和 BLAST 伺服器。另外一種選擇是可以用 FTP 下載整個的 GenBank 和更新數據。
· 增長統計 - 參見公布通知的2.2.6(每個分類的統計),2.2.7(每個物種的統計),2.2.8(GenBank增長)小節。
· 公布通知,最新 - 最近和即將有的變化,GenBank 的分類,數據增長統計,GenBank 的引用。
· 公布通知,舊 - 同上相同,是過去公布的統計。
· 遺傳密碼 - 15個遺傳密碼的概要。用來確保GenBank中紀錄的編碼序列被正確的翻譯。
向GenBank提交數據
· 關於提交序列數據,收到 accession number,和對紀錄作更新的一般信息。
· BankIt - 用於一條或者少數條提交的基於WWW的提交工具軟體。(請在提交前用 VecScreen 去除載體)
· Sequin - 提交軟體程序,用於一條或者很多條的提交,長序列,完整基因組,alignments,人群/種系/突變研究的提交。可以懶⑹褂茫�蛘哂沒�赥CP/IP的"network aware"模式,可以鏈接到其他NCBI的資源和軟體比如Entrez和PowerBLAST。(請在提交前用VecScreen去除載體)
· ESTs - 表達序列標簽,短的、單次(測序)閱讀的cDNA序列。也包括來自於差異顯示和 RACE 實驗的 cDNA 序列。
· GSSs - 基因組調查序列,短的、單次(測序)閱讀的cDNA序列,exon trap 獲得的序列,cosmid/BAC/YAC 末端,及其他。
· HTGs - 來自於大規模測序中心的高通量基因組序列,未完成的(階段0,1,2)和完成的(階段3)序列。(注意:完成的人類的HTG序列可以同時在 GenBank 和 Human Genome Sequencing 頁面上訪問。)
· STSs - 序列標簽位點。短的在基因組上可以被唯一操作的序列,用於產生作圖位點。
· 註:SNPs - 人類的和其他物種的遺傳變異數據可以提交到NCBI資料庫的單核苷酸多態性庫中(dbSNP)。
國際核苷酸序列資料庫合作組織
· GenBank,DDBJ,EMBL - 合作計劃的概述,並鏈接到相應的主頁。GenBank,DDBJ(DNA Data Bank of Japan),and EMBL (European Molecular Biology Laboratory)資料庫共享的數據是每天都交換的,因此他們是相等的。數據紀錄的格式和搜索方式可能會不一樣,但是accession number,序列數據和註解都是一模一樣的。即,你可以用accession number U12345在GenBank,DDBJ或EMBL中查找相應紀錄,得到的結果是完全一樣的序列數據,參考內容等等。
· DDBJ/EMBJ/GenBank 特性表 - 特性表格式和標准被合作資料庫用在序列記錄的注釋上,使得數據共享成為可能,包括詳細的描述生物特性和特性限定語的附錄,以及IUPAC規定的核苷酸和氨基酸的代號。
FTP GenBank 及每日更新
· GenBank普通文件格式 - 參見GenBank記錄樣本和在GenBank公布通知中的詳細描述,下載大多數最近的完全公告和日常積累或非積累更新數據。
· ASN.1格式 - 摘要句法記號1,國際標准組織(ISO)數據表示格式,下載大多數最近的完全公告和日常積累或非積累更新數據。
· FASTA格式 - 定義行號後只跟隨序列數據(示例),參見描述資料庫的readme文件,包括nt.Z(每天更新的非冗餘BLAST核酸資料庫,包括GenBank+EMBL+DDBJ+PDB序列,但是不包括EST, STS, GSS, or HTGS序列),nr.Z(每日更新的非冗餘蛋白質),est.Z, gss.Z, htg.Z, sts.Z,和其它文件。
http://www.bioon.com/biology/Print.asp?ArticleID=1256
㈤ 各位大神,幫忙解決一下下面的生物信息學題目吧,我實在看不懂啊,急急急,回復相關主題即給分,採納追分
(1)在公共DNA資料庫(比如GenBank)中有多少玉米相關的條目(entries)?在資料庫中與玉米相關數據中有多少Waxy (granule-bound starch synthase)基因序列?
(2)SSH實驗得到了一個未知序列,請在公共資料庫中找到最佳匹配(hit)(其實就是做比對,blast),然後預測潛在的功能。(結構相似性與功能相似性)
(3)用動態演算法(指定了這個演算法:Needleman-Wunsch algorithm)對以下序列進行全局比對,打分系統用BLOSUM50空位罰分8。(需要你去了解這個演算法,然後用程序實現應用到比對中,最後得出最佳的匹配方案得到結果)
(4) 在竹子的基因組片段中找基因
(5) 在植物抗病基因中找一致性序列(domains/motifs)(這個你可以用尋找motif的軟體工具,如MEME)
(6) 構建植物抗病基因的系統發生樹
(7) 寫一篇近兩年關於穀物類基因或者人類基因組相關的綜述。
P.S. LZ你這個是課程結束作業么,工作量不小啊
㈥ genbank中來自cathepsin l的序列記錄約有多少
GENBANK序列資料庫 GENBANK是美國國立衛生研究院(NIH)維護的基因序列資料庫,匯集並注釋了所有公開的核酸以及蛋白質序列。每個紀錄代表了一個單獨的、連續的、帶有注釋的DNA或RNA片段。目前GENBANK中所有的紀錄均來自於最初作者向DNA資料庫的直接提交。 蛋白質資料庫: 60年代初,DAYHOFF和他的同事們收集了所有當時已知的氨基酸序列,這就是《蛋白質序列與結構圖冊》。這一蛋白質資料庫後來成為蛋白質信息資源PIR。 核苷酸資料庫: 1982年在歐洲分子生物學實驗室(EMBL)誕生,隨即就開始了一個資料庫爆炸的時代。後來NIH搞了GENBANK。日本的DNA資料庫(DDBJ)加入了數據收集的合作。國際DNA序列資料庫合作計劃。規定了數據記錄和更新的規則。 國際核苷酸序列資料庫合作成員GENBANK--DDBJ--EMBL。GENBANK指的是DDBJ/EMBL/GENBANK 開發利用這些信息的工具(如NCBI的信息檢索系統 ENTREZ a href=" http://www.NCBI.NLM.NIH.GOV/ENTREZ/ " http://www.NCBI.NLM.NIH.GOV/ENTREZ//a ) 編碼序列(CDS): 大多數蛋白質序列都不是直接由實驗確定的,而是通過DNA序列得到的。這種方法需要進行大量的實驗、計算以及相似性比對工作。他也賦予一個產物名稱,或者功能說明(通過主觀的對相似性比對的分析)。 資料庫的格式與內容: 資料庫被用來存放原始數據和一系列附加的信息。不同的檢索工具和程序利用了這些信息中的不同部分。 FASTA 格式:廣泛應用於許多分子生物學軟體包之中。作為最簡單的情況,大於號(>)表示一個新文件的開始。通常60個字元一行。 >GB|AF150991|AF150991 TRICHOPLUSIA NI SINGLE CAPSID NUCLEAR POLYHEDROSIS VIRUS.ENSURES GREATER OCCLUSION BODY STABILITYPRODUCT--P10 / P10 PROTEIN >GB|AF275264|AF275264 HELICOVERPA ZEA NUCLEAR POLYHEDROSIS VIRUS.COMPLEMENTPRODUCT--E66-LIKE PROTEIN (PARTIAL DNA SEQUENCE) >GB|AF275264|AF275264 HELICOVERPA ZEA NUCLEAR POLYHEDROSIS VIRUS.COMPLEMENTPRODUCT--P13 >GB|AF275264|AF275264 HELICOVERPA ZEA NUCLEAR POLYHEDROSIS VIRUS.PRODUCT--ORF50-LIKE PROTEIN ASN.1 GENBANK FLATFILE: 頭部: 始於LOCUS行---LOCUS名稱,序列長度,生物分子的類型(SS或DS DNA,RNA,TRNA,RRNA, MRNA),GENBANK分類碼,數據公開日期 DEFINITION行---總結紀錄的生物意義。 檢索號---是從資料庫中檢索一個記錄的主要關鍵詞。格式:1+5或2+6。所有的GENBANK記錄都只有一個單獨的ACCESSION行。 NID---行表示核苷酸序列的GI號碼(GENINFO IDENTIFIER)。一個GI號碼對應於一個核苷酸序列。當序列改變時,GI號也改變,但檢索號不變。 KEYWORDS--- SOURCS--- ORGANISM--- REFERENCE--- AUTHORS--- TITLE--- JOURNAL---
㈦ Leptin序列大小,我想知道Leptin有多少bp,請幫忙回一下
登陸www.ncbi.nlm.gov,在核苷酸資料庫中搜索leptin即得結果。人類Leptin的mRNA登錄號為NM_000230.2,
3444 bp
Summary: This gene encodes a protein that is secreted by white
adipocytes, and which plays a major role in the regulation of body
weight. This protein, which acts through the leptin receptor,
functions as part of a signaling pathway that can inhibit food
intake and/or regulate energy expenditure to maintain constancy of
the adipose mass. This protein also has several endocrine
functions, and is involved in the regulation of immune and
inflammatory responses, hematopoiesis, angiogenesis and wound
healing. Mutations in this gene and/or its regulatory regions cause
severe obesity, and morbid obesity with hypogonadism. This gene has
also been linked to type 2 diabetes mellitus development. [provided
by RefSeq].
ORIGIN
1 gtaggaatcg cagcgccagc ggttgcaagg cccaagaagc ccatcctggg aaggaaaatg
61 cattggggaa ccctgtgcgg attcttgtgg ctttggccct atcttttcta tgtccaagct
121 gtgcccatcc aaaaagtcca agatgacacc aaaaccctca tcaagacaat tgtcaccagg
181 atcaatgaca tttcacacac gcagtcagtc tcctccaaac agaaagtcac cggtttggac
241 ttcattcctg ggctccaccc catcctgacc ttatccaaga tggaccagac actggcagtc
301 taccaacaga tcctcaccag tatgccttcc agaaacgtga tccaaatatc caacgacctg
361 gagaacctcc gggatcttct tcacgtgctg gccttctcta agagctgcca cttgccctgg
421 gccagtggcc tggagacctt ggacagcctg gggggtgtcc tggaagcttc aggctactcc
481 acagaggtgg tggccctgag caggctgcag gggtctctgc aggacatgct gtggcagctg
541 gacctcagcc ctgggtgctg aggccttgaa ggtcactctt cctgcaagga ctacgttaag
601 ggaaggaact ctggcttcca ggtatctcca ggattgaaga gcattgcatg gacacccctt
661 atccaggact ctgtcaattt ccctgactcc tctaagccac tcttccaaag gcataagacc
721 ctaagcctcc ttttgcttga aaccaaagat atatacacag gatcctattc tcaccaggaa
781 gggggtccac ccagcaaaga gtgggctgca tctgggattc ccaccaaggt cttcagccat
841 caacaagagt tgtcttgtcc cctcttgacc catctccccc tcactgaatg cctcaatgtg
901 accaggggtg atttcagaga gggcagaggg gtaggcagag cctttggatg accagaacaa
961 ggttccctct gagaattcca aggagttcca tgaagaccac atccacacac gcaggaactc
1021 ccagcaacac aagctggaag cacatgttta tttattctgc attttattct ggatggattt
1081 gaagcaaagc accagcttct ccaggctctt tggggtcagc cagggccagg ggtctccctg
1141 gagtgcagtt tccaatccca tagatgggtc tggctgagct gaacccattt tgagtgactc
1201 gagggttggg ttcatctgag caagagctgg caaaggtggc tctccagtta gttctctcgt
1261 aactggtttc atttctactg tgactgatgt tacatcacag tgtttgcaat ggtgttgccc
1321 tgagtggatc tccaaggacc aggttatttt aaaaagattt gttttgtcaa gtgtcatatg
1381 taggtgtctg cacccagggg tggggaatgt ttgggcagaa gggagaagga tctagaatgt
1441 gttttctgaa taacatttgt gtggtgggtt ctttggaagg agtgagatca ttttcttatc
1501 ttctgcaatt gcttaggatg tttttcatga aaatagctct ttcagggggg ttgtgaggcc
1561 tggccaggca ccccctggag agaagtttct ggccctggct gaccccaaag agcctggaga
1621 agctgatgct ttgcttcaaa tccatccaga ataaaacgca aagggctgaa agccatttgt
1681 tggggcagtg gtaagctctg gctttctccg actgctaggg agtggtcttt cctatcatgg
1741 agtgacggtc ccacactggt gactgcgatc ttcagagcag gggtccttgg tgtgaccctc
1801 tgaatggtcc agggttgatc acactctggg tttattacat ggcagtgttc ctatttgggg
1861 cttgcatgcc aaattgtagt tcttgtctga ttggctcacc caagcaaggc caaaattacc
1921 aaaaatcttg gggggttttt actccagtgg tgaagaaaac tcctttagca ggtggtcctg
1981 agacctgaca agcactgcta ggcgagtgcc aggactcccc aggccaggcc accaggatgg
2041 cccttcccac tggaggtcac attcaggaag atgaaagagg aggtttgggg tctgccacca
2101 tcctgctgct gtgtttttgc tatcacacag tgggtggtgg atctgtccaa ggaaacttga
2161 atcaaagcag ttaactttaa gactgagcac ctgcttcatg ctcagccctg actggtgcta
2221 taggctggag aagctcaccc aataaacatt aagattgagg cctgccctca gggatcttgc
2281 attcccagtg gtcaaaccgc actcacccat gtgccaaggt ggggtattta ccacagcagc
2341 tgaacagcca aatgcatggt gcagttgaca gcaggtggga aatggtatga gctgaggggg
2401 gccgtgccca ggggcccaca gggaaccctg cttgcacttt gtaacatgtt tacttttcag
2461 ggcatcttag cttctattat agccacatcc ctttgaaaca agataactga gaatttaaaa
2521 ataagaaaat acataagacc ataacagcca acaggtggca ggaccaggac tatagcccag
2581 gtcctctgat acccagagca ttacgtgagc caggtaatga gggactggaa ccagggagac
2641 cgagcgcttt ctggaaaaga ggagtttcga ggtagagttt gaaggaggtg agggatgtga
2701 attgcctgca gagagaagcc tgttttgttg gaaggtttgg tgtgtggaga tgcagaggta
2761 aaagtgtgag cagtgagtta cagcgagagg cagagaaaga agagacagga gggcaagggc
2821 catgctgaag ggaccttgaa gggtaaagaa gtttgatatt aaaggagtta agagtagcaa
2881 gttctagaga agaggctggt gctgtggcca gggtgagagc tgctctggaa aatgtgaccc
2941 agatcctcac aaccacctaa tcaggctgag gtgtcttaag ccttttgctc acaaaacctg
3001 gcacaatggc taattcccag agtgtgaaac ttcctaagta taaatggttg tctgtttttg
3061 taacttaaaa aaaaaaaaaa aagtttggcc gggtgcggtg gctcacgcct gtaatcccag
3121 cactttggga ggccaaggtg gggggatcac aaggtcacta gatggcgagc atcctggcca
3181 acatggtgaa accccgtctc tactaaaaac acaaaagtta gctgagcgtg gtggcgggcg
3241 cctgtagtcc cagccactcg ggaggctgag acaggagaat cgcttaaacc tgggaggcgg
3301 agagtacagt gagccaagat cgcgccactg cactccggcc tgatgacaga gcgagattcc
3361 gtcttaaaaa aaaaaaaaaa aaagtttgtt tttaaaaaaa tctaaataaa ataactttgc
3421 cccctgcaaa aaaaaaaaaa aaaa
//
LDLSPGC
㈧ 經測序後,所得序列序列如下。如何知道在NCBI上的注冊號是多少呢知道的幫個忙。解決後,再重賞
進NCBI的BLAST頁面,輸入你的序列,選擇資料庫類型,不清楚的一般選nr資料庫,點BLAST按鈕
㈨ ncbi里病毒基因為什麼是dna序列啊
要回到這個問題,還要從ncbi網站的GenBank資料庫的創建說起。GenBank資料庫是用來收集生物學基因測序的結果。如果你學過分子生物學,做過PCR試驗就會知道RNA非常不穩定,容易講解。PCR試驗的模板和產物都是DNA序列。另外,也許還會有疑問,DNA序列是雙鏈,資料庫里的序列是哪一條。這是分子生物學的約定俗稱的習慣,資料庫里是正義鏈,也就是從左到右是3'到5'。也就是DNA酶復制的方向。
因為GenBank資料庫保存的都是原始數據,所以就沒有必要轉換成RNA序列,如果你有特殊的序列分析需求(例如RNA結構預測)你可以用t-u轉換即可。