『計算生物學』漫談

黃素燕 趙坤茂

靜宜大學資訊管理系

   去氧核糖核酸(簡稱DNA)已被證明是遺傳的基本物質。它以四個字母(A、C、G、T)的密碼形式,建構了生命奧秘的藍圖。在人的每個細胞中,都儲存了長度約三十億的DNA序列,而這序列也就決定了這個人所有先天的本能;甚至於後天的努力程度,也可能被這序列所隱寓。然而,目前的科技尚無法精確地從細胞中讀出這麼長的序列。(實際上當今最大的分子生物實驗室充其量也只能解讀長度為數十萬的DNA序列,與真實需求尚有一段很長的距離。)

 

  因此,西元1988年時,諾貝爾獎得主華森博士(Watson,DNA雙螺旋結構的發現者之一)接受美國國家衛生研究院(NIH)的邀請,出任「人類基因體解讀計畫(Human Genome Project)」的主持人,主要目標是在西元2005年前找出人細胞中長達三十億的DNA序列。這次劃時代的計畫立即成為全球科學家的矚目焦點。雖然華森博士在1992年時因與NIH的主管希莉(Healy 意見不合而掛冠求去,然而這個計畫至今仍如火如荼地展開著。目前,大腸桿菌(. coli)的序列(長度約四百六十萬)已完工了。有許多人預期科學家將在西元2002年左右,就能定出人的全部序列了,真是項令人振奮的消息。

 

  計算生物學(computational biology 是一門新興的領域,主要是研究生物學應用上具計算複雜度的問題,它吸引了許多計算機科學家、(分子)生物學家、數學家、...等極投入的研究。由於大部份的研究主題都是關於分子生物學,所以有些學者又稱這一新興的領域為計算分子生物學(computational molecular biology)。我們認為計算生物學之所以能這麼快就變成一個紮實的領域,主要原因有二:

 

第一、隨著分子生物學技術的突飛猛進,它儼然已成為資料量最大的一門學問,亟需電腦協助搜尋分析。

 

第二、理論計算機科學目前正陷於停滯的狀態(實際上,雖仍時時有創新的理論出現;然而,無可諱言地,真正能劃時代的創舉已屬極為難得了),因此,計算機科學家也頗希望能將理論應用到實際的問題上,(分子)生物學正符合這項需求,計算生物學應運而生。

 

計算生物學的主要課題包括了序列組合、序列分析、生物資訊資料庫、基因認定、種族樹建構及蛋白質三維結構推測等,讓我們在此簡要地敘述如下:

 

序列組合:

誠如我們前面所說的,以目前的技術是無法將人細胞中整個長度三十億的DNA序列一次讀出。所以,分子生物學家所用的方式是先將這序列分成一些較小的片段,然後再逐一兜成原來的整個序列(這可是工程浩大的拼圖遊戲,比瞎子摸象還難!)。而這些片段是有一些層次性的,就好像我們將地球分成五大洲、數百個國家、數千個省等,在每一個階段,我們都面臨了一些頗具挑戰性的組合問題,很多實用的定序工具也因使用改良的演算法而加速了這項定序工程。

 

序列分析:

在我們得到一些序列片段後,我們也希望能藉由序列間的比較分析來看看它們的相似程度、找出一些基因規則、或甚至於用來推測它們的演化關係。序列分析的研究在傳統的計算機科學裡已被廣泛地探討,然而因為生物序列分析的特殊需求,我們也常常可以找到一些有趣的演算法問題。目前兩個序列的比較已有充份的工具可供使用,但在多重序列的比較上仍缺乏很有效工具。此外,長序列分析也會在未來扮演更重要的角色。

 

生物資訊資料庫:

由於愈來愈多的生物序列已被決定出來,以資料庫協助管理是最為有效的方式。其中,美國國家衛生研究院生物科技資訊中心(NCBI)所支援的GenBank已廣被各實驗室所採用,GenBank是一個儲存核酸序列及蛋白質序列的資料庫,它與英國的EMBL資料庫及日本的DNA資料庫互相合作,截至19978月止,它已儲存了492,483種不同的序列,總共有353,713,490個核酸字符。雖然其中有54%是人類的核酸字符,但它也包含了超過15,500個不同種類的生物序列。也由於其龐大的資料量,因此有很多人探討如何有效地表示資料,以及如何有效地搜尋資料。

 

基因認定:

在人類三十億長的DNA序列中,約只有3%是基因(所謂基因是指那些會轉換成蛋白質的DNA序列,我們人類約有五萬到十萬種基因),如何在DNA序列中決定基因所在位置仍是未解的問題,已有很多研究提供了一些有效的方法,但仍未能完全精確地預測出所有基因位置。此外,基因外有些序列是用來做基因規則的,而這部份也仍有待更有效的方法來協助探討。

 

種族樹建構:

種族樹的建構是一門有悠久歷史的研究領域,近年來由於生物序列的協助,我們可藉由這種更精細的分析來建構那些較為模稜兩可的種族間之種族樹;同時,我們也可藉由這種細部分析來驗證以前所建構的種族樹。通常這方面的研究都會先以生物序列的比較來求得種族之間的兩兩距離,然後基於某些要件下,試著去建構一個最符合需求的種族樹。

 

蛋白質三維結構推測:

蛋白質的很多特性與功能是和它實際的三維結構非常相關的,然而目前直接去決定某種蛋白質的結構,通常不是不可行就是代價太高,藉由一些方法的設計與協助,生物學家可以用較低的代價求得蛋白質可能的結構,然後再以實驗加以驗證。這些推測很多是基於最低熱能結構或蛋白質序列比較來進行的。

 

  目前已知的遺傳疾病已達數千種,我們希望計算生物學的進步能協助生物科技及基因工程治療這方面的疾病,或至少能在診斷上有所助益。我們相信,這方面的研究將使我們更認識生命的本質。但我們不願見到它被用來做違反倫理的事,如改變IQ、或發展致命武器等。

 

有人說:「二十一世紀是生物科技的時代。」我們也要呼籲國內的有志之士一同來參與這方面的研究。實際上,中央研究院、清華大學及陽明大學等研究機構已開始組成跨領域的研究群,希望能藉由計算生物學的研究,提供更有效的生物資訊(bioinformatics),從而協助本土性疾病的診斷及治療,開創更健康、更美好的明天!