基因組注釋分析主要包括哪些內容
基因組注釋包括以下方面的內容:
(1) 重復序列的預測。通過(guò)比對已知的重復序列數據庫,找出序列中包含的重復序列,識別類(lèi)型并轉化為N或者X,統計各種類(lèi)型重復序列的分布。
(2) 編碼基因的預測。通過(guò)將轉錄組或EST數據比對到拼接后的基因組序列上,找出編碼基因位置,預測編碼基因結構。或者通過(guò)專(zhuān)業(yè)的外顯子預測軟件,預測編碼基因的外顯子結構。
(3) 小RNA基因的預測。通過(guò)比對已知的小RNA的數據庫,或者通過(guò)生物信息(bioinformation)學(xué)軟件預測,找出這些小RNA基因,并進(jìn)行分類(lèi)。
(4) 調控序列和假基因的預測。
基因功能的注釋?zhuān)褂玫臄祿彀∟T/NR, SwissProt/TrEMbl, InterPro, KEGG, COG, Gene ontology等,使用比對的方法,如blast,找出同源相近的基因,并注釋功能。
111 開(kāi)發(fā)環(huán)境本系統基于PC 微機,操作系統為L(cháng)inux。
測試系統為PIII 550 雙CPU 微機,內存1GB ,運行RedHat 710 Linux 系統。數據庫管理系統使用MySQL ,Web 服務(wù)器程序使用Apache ,應用程序接口用Perl 腳本語(yǔ)言編寫(xiě)。
本系統也可在單CPU 微機上運行,內存不小于512MB。所有系統軟件和應用軟件均可以從Internet 網(wǎng)上免費獲得。
112 測試數據本系統用藍細菌( Synechococcus sp. ) PCC7002 基因組初步拼接所得最大重疊連續群(Contig) 作測試數據,共3 03247bp 。113 MGAP 的基因組注釋系統基因組注釋系統是MGAP 的核心,整合了許多常用的基因識別和蛋白質(zhì)功能預測軟件,包括GeneMarks、IPRsearch、BLASTPGP 和FASTA3 等,以及多個(gè)數據庫,如非冗余蛋白質(zhì)序列數據庫(Non redundant , NR) 、已知三維空間結構的蛋白質(zhì)序列數據庫(PDBSeq) 、國際蛋白質(zhì)資源信息系統( InterPro) [6] 和直系同源蛋白質(zhì)家族數據庫(Cluster of orthologousgroups ,COG) 等,編寫(xiě)了相應的模塊進(jìn)行自動(dòng)操作,并把每一步注釋結果導入數據庫中。
MGAP 整合的一般模塊,可以被其他任何一種微生物基因組直接使用。不同實(shí)驗室可根據實(shí)際研究需要,增加相應模塊或數據,如藍細菌Anabaena sp. strain PCC 7120 的蛋白質(zhì)序列庫等。
基因識別是MGAP 的第一步,本系統采用微生物基因組基因識別最為權威的Gene2Marks 軟件進(jìn)行基因預測,通過(guò)http :PPopal .biology.gatech.. cgi 網(wǎng)站提交重疊連續群測試序列(3 03247bp) ,使用GeneMarks 缺省參數,預測得到279 個(gè)基因。然后用MGAP 的數據加載模塊(Loaddata) 將預測結果導入ORF 表中。
114 MGAP 的用戶(hù)接口用戶(hù)接口用于展示注釋結果,提供易于操作和分析平臺。本系統用戶(hù)接口基于Web設計開(kāi)發(fā),用戶(hù)可通過(guò)瀏覽器訪(fǎng)問(wèn)基因組注釋系統,包括基因組環(huán)狀圖展示、基因和ORF在染色體上分布圖,并對注釋信息進(jìn)行檢索。
基因組環(huán)狀基因分布圖構建基于如下信息:預測所得基因的起始位置、長(cháng)度,編碼基因的正負鏈信息,以及預測的基因功能分類(lèi)。2 結果圖1 是MGAP 系統對PCC7002 基因組重疊連續群測試序列注釋結果。
A 為基因展示圖,B 為ORF 顯示頁(yè)面。A 中由外向內依次為: (1) 正鏈編碼基因; (2) 負鏈編碼基因; (3)GC 含量統計; (4) GC 偏離量統計。
該系統構建的環(huán)狀基因組,可顯示正負鏈上的編碼基因,用相應顏色表示功能類(lèi)別。本系統沿用經(jīng)典蛋白質(zhì)功能分類(lèi)方法[8] ,即把微生物基因組所有基因按功能分為16 大類(lèi),進(jìn)而細分為113 個(gè)子類(lèi)。
此外,還增加了統計GC 含量和GC 偏離量(GC Bias) 功能。計算GC 含量時(shí)以200bp 為滑動(dòng)窗口,計算GC 偏離量時(shí)以13kb 為滑動(dòng)窗口。
GC 偏離量表示G和C 含量的差別,定義為: (G2C)P(G+ C) [9] 。點(diǎn)擊A圖中環(huán)狀基因組展示圖,則可得到B 圖基因組局部ORF 顯示頁(yè)面。
點(diǎn)擊圖中某個(gè)ORF ,即可調出其所有注釋信息,包括該ORF 在基因組中的位置、長(cháng)度、正負鏈信息、核酸和蛋白序列,以及對NR 蛋白庫、COG數據庫、InterPro 、PDBseq 數據庫的搜索結果。所有結果都有相對應的連接可以直接連到原始數據庫。
3 討論新基因組功能注釋是基因組研究的重要方面,MGAP 把注釋所用軟件和公共數據庫進(jìn)行有機集成,使注釋過(guò)程自動(dòng)進(jìn)行并把結果存儲到數據庫系統中,最終提供友好的界面,可為中小實(shí)驗室提供方便實(shí)用的微生物基因組注釋系統,減少人工參與,提高注釋效率。該系統考慮到國內一般中小實(shí)驗室的實(shí)際情況,基于廉價(jià)的PC 微機和免費Linux、MySQL 、Apache 和Perl 等軟件系統開(kāi)發(fā)。
必須指出,目前所有計算機注釋信息,均不能保證完全準確。MGAP 在一定程度上依賴(lài)于現有數據庫中的注釋信息。
由于各種原因,這些注釋信息必然有一些錯誤。顯然,這些錯誤信息將不可避免地引入新的注釋系統。
為此,MGAP 綜合了多種注釋方法,并互為補充。例如,一個(gè)ORF 既有BLASTP從NR 數據庫搜索到的相似序列,又在InterPro 蛋白質(zhì)模體庫中找到相應功能位點(diǎn),也可找到高分匹配的COGs ,那么該注釋結果就比較可靠。
此外,必要的人工注釋?zhuān)梢员苊饣蚣m正自動(dòng)注釋的錯誤。例如,由于測序錯誤產(chǎn)生的讀碼框移位或是缺失,會(huì )導致一個(gè)基因被拆分成兩段,這種錯誤目前只能由手工糾正。
基因組注釋是一個(gè)復雜、繁瑣的過(guò)程,需要大量的生物學(xué)知識。詳盡、準確的注釋需要經(jīng)過(guò)嚴格的生物學(xué)實(shí)驗才能獲得。
本系統對測試序列的注釋結果仍有許多未知功能基因,需不斷擴充新數據而逐步更新。MGAP 的新版本將增加交互式用戶(hù)注釋模塊,進(jìn)一步擴充和增強該系統注釋功能。
基因組注釋 是利用生物信息學(xué)方法和工具,對基因組所有基因的生物學(xué)功能進(jìn)行高通量注釋。
基因組注釋的研究?jì)热莅ɑ蜃R別和基因功能注釋兩個(gè)方面。基因識別的核心是確定全基因組序列中所有基因的確切位置。從基因組序列預測新基因,現階段主要是3 種方法的結合:
(1)分析mRNA 和EST數據以直接得到結果;
(2)通過(guò)相似性比對從已知基因和蛋白質(zhì)序列得到間接證據;
(3)基于各種統計模型和算法從頭預測。
對預測出的基因進(jìn)行高通量功能注釋可以借助于以下方法,利用已知功能基因的注釋信息為新基因注釋?zhuān)?/p>
(1)序列數據庫相似性搜索;
(2)序列模體搜索;
(3)直系同源序列聚類(lèi)分析。
擴展資料:
基因注釋重大突破:
1、中國科學(xué)院水生生物研究所葛峰研究員學(xué)科組利用蛋白基因組學(xué)的研究策略和方法,成功對單細胞光合真核生物三角褐指藻的基因組進(jìn)行了深度注釋?zhuān)瓿闪巳呛种冈宓牡鞍踪|(zhì)組精細圖譜,并建立了完整的真核生物基因組深度注釋實(shí)驗技術(shù)和分析流程。
該研究成果的取得,有望進(jìn)一步推動(dòng)蛋白基因組學(xué)在生命和健康領(lǐng)域特別是精準醫學(xué)方面的應用。
2、美國加州大學(xué)舊金山分校研究人員發(fā)現,GABP蛋白的一種特定成分GABP-β1L,是與端粒酶逆轉錄酶(TERT)啟動(dòng)子突變相關(guān)的膠質(zhì)母細胞瘤細胞不受控制地分裂、繁殖的關(guān)鍵。
他們10日在《腫瘤細胞》雜志上發(fā)表論文稱(chēng),新發(fā)現提供了一個(gè)很有前途的用藥靶點(diǎn),對未來(lái)膠質(zhì)母細胞瘤及其他多種與TERT啟動(dòng)子突變相關(guān)癌癥的治療具有重要意義。
參考資料來(lái)源:百度百科-基因組注釋
出現在重疊基因中:
①在核糖體結合位點(diǎn)之后含有多重起始位點(diǎn),或終止密碼的漏讀(其中UGA、UAG易被漏讀、錯讀,UAA能?chē)栏窠K止),例如兩種蛋白質(zhì)均從同一起始密碼開(kāi)始起譯,其中一種蛋白在遇到第一個(gè)終止密碼是就停止翻譯,另一種蛋白由于發(fā)生漏讀,核糖體繼續翻譯到下一個(gè)終止密碼處;
②以不同的讀碼框架對同一條mRNA進(jìn)行識讀和翻譯;
③選擇不同的起始密碼AUG,但按同一個(gè)讀碼框架對同一條mRNA進(jìn)行識讀和翻譯;
④編碼在同一DNA區段不同極性單鏈上的重疊基因,即反向重疊基因;
⑤真核生物內含子選擇性剪接可由同一初級轉錄物產(chǎn)生多種蛋白質(zhì),即同源異型蛋白。
另一個(gè)版本:
①在核糖體結合位點(diǎn)之后含有多重起始位點(diǎn)
②在一兩個(gè)堿基的移碼方式出現重疊的可讀框
③不同的剪接方式,產(chǎn)生不同的mRNA方式
聲明:本網(wǎng)站尊重并保護知識產(chǎn)權,根據《信息網(wǎng)絡(luò )傳播權保護條例》,如果我們轉載的作品侵犯了您的權利,請在一個(gè)月內通知我們,我們會(huì )及時(shí)刪除。
蜀ICP備2020033479號-4 Copyright ? 2016 學(xué)習?shū)B(niǎo). 頁(yè)面生成時(shí)間:3.128秒