近年來,隨著人類基因組計(jì)劃(HGP)在世界范圍內(nèi)的開展,破譯人類及多種模式生物的遺傳密碼已成為生物學(xué)領(lǐng)域的重要學(xué)科。同時(shí)產(chǎn)生了巨量的基因組信息。分析這些信息是人類基因組研究*的重要內(nèi)容,從而也促成了生物信息學(xué)的產(chǎn)生與發(fā)展。生物信息學(xué)作為一門新的學(xué)科領(lǐng)域,它是把基因組DNA序列信息分析作為源頭,在獲得了蛋白質(zhì)編碼區(qū)的信息之后進(jìn)行蛋白質(zhì)空間結(jié)構(gòu)模擬和預(yù)測,然后依據(jù)特定蛋白質(zhì)的功能進(jìn)行必要的藥物設(shè)計(jì)。因此在基因組研究時(shí)代,基因組信息學(xué)、蛋白質(zhì)的結(jié)構(gòu)模擬以及藥物設(shè)計(jì)必然有機(jī)地連接在一起,它們是生物信息學(xué)的三個(gè)重要組成部分。當(dāng)前,生物信息學(xué)已在理論生物學(xué)領(lǐng)域占有了核心的地位,并提出了大量的緊迫任務(wù)。 1 基因組相關(guān)信息的收集、儲存、管理與提供 到1998年12月GenBank中收集的核酸序列已達(dá)3044000條,它們包含的堿基數(shù)目是2162000000個(gè)。與此同時(shí)有二十個(gè)生物體的完整基因組已被破譯,約有至少40個(gè)完整基因組正在破譯當(dāng)中。大量基因數(shù)據(jù)的出現(xiàn)促進(jìn)了數(shù)據(jù)庫、分析工具以及網(wǎng)絡(luò)連接等的快速發(fā)展。 1.1 生物信息數(shù)據(jù)庫 建立數(shù)據(jù)庫是存儲基因組相關(guān)信息的重要步驟,當(dāng)前在互聯(lián)網(wǎng)絡(luò)上可找到與基因組信息相關(guān)的大量重要數(shù)據(jù)庫、服務(wù)器。其中:GenBank、EMBL、GDB、PDB、PIR等數(shù)據(jù)庫更是頻繁地被用戶檢索。在基因組織關(guān)數(shù)據(jù)庫的發(fā)展中,以及幾方面特別引起人們的重視: a)、建立基因組信息的評估與檢測系統(tǒng) b)、數(shù)據(jù)標(biāo)準(zhǔn)化 c)、進(jìn)行基因組信息的可視化和專家系統(tǒng)的研究 d)、發(fā)展次級與專業(yè)數(shù)據(jù)庫 原始數(shù)據(jù)是龐大的。在原始數(shù)據(jù)的基因上,根據(jù)不同的特征將其加工,而構(gòu)建出若干數(shù)據(jù)庫,這不僅會給用戶帶來很多方便,更重要的是專業(yè)人員注入的知識會對用戶有很大的啟發(fā)。的二級數(shù)據(jù)庫象:蛋白質(zhì)結(jié)構(gòu)分類數(shù)據(jù)庫(SCoP),受體數(shù)據(jù)庫,克隆載體數(shù)據(jù)庫等……。 1.2 以因特網(wǎng)(Internet)為基礎(chǔ)的基因組信息學(xué)傳輸網(wǎng)絡(luò) 用戶與數(shù)據(jù)庫間迅速、有效地傳遞信息是基因組信息的收集、管理與使用的另一要素。目前與基因組信息相關(guān)的數(shù)據(jù)庫都有了自己的Internet地址和主頁(Homepage),同時(shí)在網(wǎng)上還出現(xiàn)了很多相關(guān)的在線(online)服務(wù)器。 我國在基因組信息的收集與提供方面也有了一定的工作:北京大學(xué)物理化學(xué)研究所建立的PDB數(shù)據(jù)庫的中國節(jié)點(diǎn);北京大學(xué)生命科學(xué)院建立的EMBL數(shù)據(jù)庫的中國節(jié)點(diǎn)。中國科學(xué)院生物物理所與日本JIPID的合作,收集了我國科學(xué)家測定的DNA和蛋白質(zhì)序列并與相應(yīng)數(shù)據(jù)庫進(jìn)行交流。中國醫(yī)學(xué)科學(xué)院腫瘤研究所建立的MEE-HOW服務(wù)器等。在數(shù)據(jù)庫研究中有兩點(diǎn)特別重要,一是構(gòu)建我國自己的數(shù)據(jù)庫;二是與常用數(shù)據(jù)庫的有效連接和及時(shí)更新。經(jīng)過努力,相信這一領(lǐng)域在我國會迅速發(fā)展。 2 新基因的發(fā)現(xiàn)與鑒定 發(fā)現(xiàn)一個(gè)新的基因就能了解與其相關(guān)的生理功能或疾病的本質(zhì),從而為新藥的開發(fā)、設(shè)計(jì)奠定基礎(chǔ)。使用基因組信息學(xué)的方法是發(fā)現(xiàn)新基因的重要手段,比如在啤酒酵母完整基因組(約1200萬bp)所包含的5932個(gè)基因中,大約60%是通過信息分析得到的。使用EST序列信息尋找新基因是當(dāng)前上基因爭奪戰(zhàn)的熱點(diǎn)。 2.1 利用EST數(shù)據(jù)庫(dbEST)發(fā)現(xiàn)新基因 eST序列(Expressed sequence Tags)是從基因表達(dá)的短c-DNA序列,它們攜帶著完整基因某些片段的信息。到1998年12月中在GenBank的EST數(shù)據(jù)庫中已收集了EST序列2,020,608條,其中人EST序列為1,201,241條,它大約覆蓋了人類基因的80%。由于EST序列中包括了大量未發(fā)現(xiàn)的人類基因的信息,因此如何利用這些信息發(fā)現(xiàn)新基因成了近幾年的重要研究課題。 2.2 從基因組DNA測序數(shù)據(jù)中確定編碼區(qū) 這一研究已經(jīng)進(jìn)行了很多年,并建立了多種方法。這些方法概括說來分為兩類,一類是基于編碼區(qū)所具有的*信號,比如起始密碼子、終止密碼子等,另一類是基于編碼區(qū)的堿基組成不同于非編碼區(qū)。這是由于蛋白質(zhì)中20種氨基酸出現(xiàn)的概率不同,每種氨基酸的密碼子兼并度不同,同一種氨基酸的兼并密碼子使用頻率不同等原因造成的。近年來一批新的確定編碼區(qū)的方法出現(xiàn)了,例如,考慮高維分布的統(tǒng)計(jì)方法、神經(jīng)網(wǎng)絡(luò)方法、分形方法等。將密碼學(xué)方法用于識別編碼區(qū),也取得了較好的結(jié)果。 3 非編碼區(qū)信息結(jié)構(gòu)分析 雖然對約占人類基因組95%的非編碼區(qū)的作用人們還不清楚,但從生物進(jìn)化的觀點(diǎn)看來,這部分序列必定具有重要的生物功能。普遍的認(rèn)識是,它們與基因在四維時(shí)空的表達(dá)調(diào)控有關(guān)。因此尋找這些區(qū)域編碼特征,信息調(diào)節(jié)與表達(dá)規(guī)律是未來相當(dāng)長時(shí)間內(nèi)的熱點(diǎn)課題。 3.1 非編碼區(qū)中各種組分的分類與確定 非編碼區(qū)(“Junk”DNA)占據(jù)了人類基因組的大部分,研究表明“Junk”是許多對生命過程富有活力的不同類型的DNA的復(fù)合體,它們至少包含如下類型的DNA成份或由其表達(dá)的RNA成分:內(nèi)含子(intron)、衛(wèi)星(Salite)DNA、小衛(wèi)星(minisalite)DNA、微衛(wèi)星(Microsalite)DNA、非均一核RNA(簡稱hmRNA)短散置元(short interspersed elements,簡稱SINE)、長散置元(long interspersed elements,簡稱LINE)、偽基因(pseudogenes)等。除此之外順式調(diào)控元件,如啟動(dòng)子、增強(qiáng)子等也屬于非編碼序列。一些科學(xué)家認(rèn)為應(yīng)當(dāng)把染色體稱為信息細(xì)胞器(information organelle)。了解“JunK”DNA是了解信息細(xì)胞器的關(guān)鍵步驟。 3.2 尋找新的非三聯(lián)體的編碼方式 是否在基因組中僅存在三聯(lián)體的編碼方式呢?是否傳遞不同的信息應(yīng)有不同字長的碼呢?人們熟知三聯(lián)碼是用于將4個(gè)字符組成的基因中的信息傳遞給由20個(gè)字符組成的蛋白質(zhì)。只有堿基三聯(lián)體數(shù)(43=64)才是大于20(氨基酸的種類數(shù))且zui接近20的堿基組合。所以三聯(lián)體是DNA與蛋白質(zhì)間傳遞信息的編碼。按照這樣的推理人們可以認(rèn)為由DNA到結(jié)構(gòu)RNA間的信息傳遞是單聯(lián)體碼,因?yàn)镈NA與RNA的結(jié)構(gòu)單元是一一對應(yīng)的。如果考慮到人類基因的總數(shù)約為5萬到10萬,那么要調(diào)節(jié)單獨(dú)的一個(gè)基因的調(diào)節(jié)單元的數(shù)目也要與此相應(yīng),達(dá)到若干萬個(gè)。此時(shí)三聯(lián)體編碼方式的區(qū)分度就遠(yuǎn)為不足。這就是生物信息學(xué)家尋找其他非三聯(lián)體編碼方式的原因。 3.3 編碼區(qū)和非編碼區(qū)中信息調(diào)節(jié)規(guī)律的研究 雖然Jacob和Monod的乳糖操縱子模型給出了基因表達(dá)調(diào)控的zui基本模式,但近年來很多發(fā)現(xiàn)表明基因的調(diào)節(jié)是遠(yuǎn)為復(fù)雜與豐富的。隨著基因組研究進(jìn)入后基因組時(shí)代,功能基因的表達(dá)譜得以測定,這些深刻的問題會逐步得到解決。 4 生物進(jìn)化的研究 自1859年Darwin的物種起源(Origin of Species)發(fā)表以來,進(jìn)化是對人類自然科學(xué)和自然哲學(xué)發(fā)展的zui重要貢獻(xiàn)之一。自本世紀(jì)中葉以來,隨著分子生物學(xué)的不斷發(fā)展,進(jìn)化論的研究也進(jìn)入了分子水平。并建立了一套依賴于核酸、蛋白質(zhì)序列信息的理論方法。現(xiàn)在隨著序列信息的大量出現(xiàn)開展分子進(jìn)化的研究具有了*時(shí)機(jī)。 5 完整基因組的比較研究 在后基因組時(shí)代,生物信息學(xué)家面對的不僅是序列和基因而是越來越多的完整基因組??茖W(xué)家們對zui早的七個(gè)完整基因組所做的分析得到了很多有意義的結(jié)論。這些生物體都是能獨(dú)立存活的,zui大的是啤酒酵母,它有5932個(gè)基因,zui小的是生殖道枝原體,它只有470個(gè)基因。有了這些資料人們就能估計(jì),zui小獨(dú)立生活的生物至少需要多少基因,這些基因是如何使它們活起來的?基因組研究還發(fā)現(xiàn),鼠和人的基因組大小相似,都含有約三十億堿基對,基因的數(shù)目也類似??墒鞘蠛腿瞬町惔_如此之大,這是為什么?同樣,有的科學(xué)家估計(jì)不同人種間基因組的差別不大于0.1%;人猿間差別不大于1%。因此其表型差異不僅應(yīng)從基因、DNA序列找原因,也應(yīng)考慮染色體組織上的差異??傊赏暾蚪M研究所導(dǎo)致的比較基因組學(xué)必將為后基因組研究開辟新的領(lǐng)域。 6 基因組信息分析的方法研究 6.1 發(fā)展有效的能支持大尺度作圖與測序需要的軟件和數(shù)據(jù)庫以及若干數(shù)據(jù)庫工具,包括互聯(lián)網(wǎng)絡(luò)上的遠(yuǎn)程通訊工具,使之能容易地處理日益增長的物理圖、遺傳圖和序列信息。改進(jìn)現(xiàn)有的理論分析方法,象統(tǒng)計(jì)方法、隱含馬爾科夫過程方法、分維方法、神經(jīng)網(wǎng)絡(luò)方法、復(fù)雜性分析方法、密碼學(xué)方法等。創(chuàng)建一切適用于基因組信息分析的新方法、新技術(shù)。 6.2 建立快速、嚴(yán)格的多序列比較方法 多序列比較是解決同源性分析等重要問題的關(guān)鍵手段,但迄今為止只有近似方法。雖然兩個(gè)序列比較有動(dòng)態(tài)規(guī)劃算法這樣的方法,但要把它推廣到多序列的情況是不現(xiàn)實(shí)的。為此發(fā)展的多序列比較方法是當(dāng)務(wù)之急。 7 大規(guī)?;蚬δ鼙磉_(dá)譜的分析 目前,基因組的研究已從結(jié)構(gòu)基因組(structural genome)逐漸過度到功能基因組(functional genome)。因此獲得基因的功能表達(dá)譜,將存在于人類基因組上的靜的基因圖譜,向時(shí)間、空間維上展開是新一階段基因組研究的核心。為了得到基因表達(dá)的功能譜,上在核酸和蛋白質(zhì)兩個(gè)層次上都發(fā)展了新技術(shù)。在核酸層次上的新技術(shù)是DNA芯片,在蛋白質(zhì)層次上則是二維凝膠電泳和測序質(zhì)譜技術(shù)。由此導(dǎo)致了大規(guī)?;蚬δ鼙磉_(dá)譜的分析問題。它們從數(shù)學(xué)角度看不是簡單的NP問題、動(dòng)力系統(tǒng)問題或不確定性問題,因此需要發(fā)展新的方法和工具。所以無論是生物芯片還是蛋白質(zhì)組技術(shù)的發(fā)展都更強(qiáng)烈地依賴于生物信息學(xué)的理論、技術(shù)與數(shù)據(jù)庫。 8 蛋白質(zhì)分子空間結(jié)構(gòu)的預(yù)測、模擬和分子設(shè)計(jì) 隨著人類基因組計(jì)劃的執(zhí)行,找到人類5萬到10萬個(gè)基因的堿基序列是指日可待的事,因而確定人的上千個(gè)原癌基因和幾萬個(gè)與疾病相關(guān)基因表達(dá)產(chǎn)物的氨基酸順序也會逐漸實(shí)現(xiàn)。這無疑給人類疾患的治療帶來了很大的希望。然而要了解他們的功能、要找到這些蛋白質(zhì)致病的分子基礎(chǔ),只有氨基酸順序的知識是不夠的,必要知道它們的三維結(jié)構(gòu)。與此同時(shí),要設(shè)計(jì)藥物治療這些疾患也需要了解蛋白質(zhì)的三維結(jié)構(gòu)。這是擺在科學(xué)家面前的緊迫任務(wù)。 當(dāng)前不論是還是國內(nèi),蛋白質(zhì)空間結(jié)構(gòu)預(yù)測和蛋白質(zhì)分子的改性設(shè)計(jì)都在廣泛而快速地展開。近年來對蛋白質(zhì)構(gòu)象模式的研究取得了很大進(jìn)展。比較*的看法是:蛋白質(zhì)的折疊類型是有限的,目前估計(jì)為幾百至幾千種。這要遠(yuǎn)小于蛋白質(zhì)所具有的自由度數(shù)目。同時(shí)蛋白的折疊類型是與它們的組分和一級序列相關(guān)的,這樣就有可能從蛋白質(zhì)的初級信息中確定它們的zui終折疊類型。 9 藥物設(shè)計(jì) 傳統(tǒng)的藥物研制主要是從大量的天然產(chǎn)物,如動(dòng)物、植物、微生物和合成有機(jī)、無機(jī)化合物中進(jìn)行篩選。往往得到一個(gè)可供臨床使用的藥物要篩選1萬種不同的化合物,要經(jīng)過10年左右的時(shí)間和耗資2.5-3.0億美元。當(dāng)前隨著組合化學(xué)和群集篩選的發(fā)展,這一狀況有了一定程度的改善,但耗資、耗時(shí)仍然是巨大的。近年來由于結(jié)構(gòu)生物學(xué)的發(fā)展,相當(dāng)數(shù)量的蛋白質(zhì)以及一些核酸、多糖的三維結(jié)構(gòu)已被了解。因此,基于生物大分子結(jié)構(gòu)知識的藥物設(shè)計(jì)成為了當(dāng)前的熱點(diǎn)。生物信息學(xué)的研究不僅可提供生物大分子空間結(jié)構(gòu)的信息,還能提供電子結(jié)構(gòu)的信息,如能級、表面電荷分布、分子軌道相互使用等以及動(dòng)力學(xué)行為的信息,如生物化學(xué)反應(yīng)中的能量變化、電荷遷移、構(gòu)象變化等。理論模擬還可研究包括生物分子及其周圍環(huán)境(如水、離子等)的復(fù)雜體系和生物分子的量子效應(yīng)。上述的不少方面當(dāng)前是難以直接用分子生物學(xué)的實(shí)驗(yàn)手段加以研究的。這些模擬的結(jié)構(gòu)對于在分子、亞分子和電子結(jié)構(gòu)層次上了解生命現(xiàn)象的基本過程具有重要意義。并為天然生物大分子的改性和基于受體結(jié)構(gòu)的藥物分子設(shè)計(jì)提供了依據(jù)。 10 應(yīng)用與發(fā)展研究 基因組信息學(xué)的研究結(jié)果不僅具有重要的理論價(jià)值,也可直接應(yīng)用到工農(nóng)業(yè)生產(chǎn)和醫(yī)療實(shí)踐當(dāng)中去。 10.1 與疾病相關(guān)的人類基因信息的匯集以及病人樣品序列信息檢測技術(shù)的發(fā)展 很多的人類基因是和疾病有關(guān),有人估計(jì)與癌癥相關(guān)的原癌基因約有一千個(gè),抑癌基因約有一百個(gè)。約有六千種以上的人類疾患與各種人類基因的變化相關(guān)聯(lián)。隨著人類基因組計(jì)劃的深入,當(dāng)我們知道了全部八萬到十萬個(gè)人類基因在染色體上的位置和它們的序列特征以后,人們就可以有效地判定各種分子疾患。為了實(shí)現(xiàn)這一目標(biāo)有兩項(xiàng)工作是重要的,一是構(gòu)建與疾病相關(guān)的人類基因信息數(shù)據(jù)庫,二是發(fā)展快速、有效的對患者血液、體液、組織等樣品進(jìn)行測試和序列信息檢測的技術(shù)。近幾年上已出現(xiàn)了若干與疾病相關(guān)的數(shù)據(jù)庫,其他技術(shù)也在發(fā)展中。 10.2 建立與動(dòng)、植物良種繁育相關(guān)的基因組數(shù)據(jù)庫。 隨著人類基因組、水稻基因組以及各種模式生物基因組的解譯,根據(jù)不同物種間的進(jìn)化距離和功能基因的同源性,可以容易地找到各種家畜、經(jīng)濟(jì)作物與其經(jīng)濟(jì)效益相關(guān)的基因,進(jìn)而對它們按照人們的愿望加以改造。 10.3 發(fā)展基于序列信息的分子生物學(xué)技術(shù) 分子生物學(xué)常用的表達(dá)載體、PCR引物以及各種試劑盒的設(shè)計(jì)必須依賴于核酸的序列信息?;蚪M信息學(xué)提供的大量信息為這類技術(shù)的發(fā)展提供了廣闊的天地。 總之,當(dāng)前是人類基因組研究的一個(gè)有活力的新時(shí)代。不少科學(xué)家還說它是人類基因組研究的收獲時(shí)代,它不僅將賦予人們基因研究重要成果,也會帶來巨大的經(jīng)濟(jì)效益和社會效益。在未來的幾年中DNA序列數(shù)據(jù)將以意想不到的速度增長,這是一個(gè)難得的機(jī)會,盡早利用這些數(shù)據(jù)就可能走在科學(xué)界的zui前沿。 |