SciScape專題文章 [回SciScape首頁] [回專題文章區]

生物資訊淘金熱---在人類基因組中尋寶

作者: Alex Lai < Lai0Net@netscape.net >


目次


人類基因組與生物資訊學的興起

人類基因組是由大約三十億鹼基對(A, T, C, G)所組成。如果將這些資訊儲存成文字 檔,大約需要兩千片磁碟片才足夠。而這只是一個開端而已,隨之而來的是更大量的 分析資料,因而需要建立許多不同的巨型資料庫來儲存,這包括以下幾種︰
  1. 不同的基因在何時表達以及在何種組織器官中表達 (eg. microarray, SAGE)
  2. 蛋白質的形狀和結構 (3-D structure)
  3. 一蛋白質如何與其它蛋白質交互作用
  4. 單一核甘酸多樣性(single nucleotide polymorphism, or SNP)
如果沒有藉由電腦的輔助,這麼大量的資訊就如同一本沒有按姓名筆劃排列的電話號 碼簿一般,是一點價值都沒有。生物資訊學 — 一個結合資訊科學與生物學的新名詞 — 正隨著這一波資訊潮流蓬勃發展,進而可能使整個生物醫學研究全面改觀。生物 資訊學主要的重點是有關如何儲存、管理、傳輸、進而分析生物相關的大量資訊,可 概略分為:
  1. protein structure prediction(蛋白質結構的預測)
  2. search homology
  3. multiple sequence alignment and phylogeny construction
  4. genome sequence analysis and gene prediction(基因組序列分析和基因預測)
然而因為生物資訊學本身仍在不斷的演化中,將來可能包括的範圍更廣。目前許多相 關的生技公司大部分的研究重點是在基因組序列分析和基因預測上,主要的著眼點在 於取得第一時間申請基因專利。一旦基因組定序的工作在一、兩年內全部完成,將正 式宣告進入後基因組時代(post-genomic era),預測那時的重點將轉移至 functional genomics、proteomics、及SNP上。在一般藥廠中,生物資訊部門扮演的角色主要在新 藥研發的最早期階段:尋找藥物作用目標(drug target);但是最近逐漸開始有參與全 程新藥研發的趨勢。

Oscar Gruss & Son Inc.的Jason Reed整理和分析超過五十家提供生物資訊產品和服 務的上市與未上市公司的資料,他認為生物資訊將在未來五年帶入約二十億美元的業 務。許多藥廠和生技公司願意花錢使用這些生物資訊公司提供的產品和服務,主要是 希望藉此縮短時間在尋找有潛力的藥物作用目標。如果一種新藥能提早一年進入市場, 將為這個公司產生額外的五億美元營收。

這篇報告主要是介紹生物資訊學中與Human Genome Project有關的部份,特別是生物 資料庫及基因組序列分析和基因預測。希望能引起一般讀者對生物資訊學的興趣。

生物資料庫的建立

生物資訊最早開始於生物資料庫的建立,最有名的就是GenBank。GenBank現在是由 NIH (National Institute of Health, USA)底下的NCBI (National Center for Biotechnology Information)來管理。這個資料庫也是世界最大的公共生物資料庫, 收集來自不同物種的DNA序列。自從1990年Human Genome Project開始運作以來,存 入的資料更是以級數般的累積。GenBank每天與EMBL (European Molecular Biology Laboratory)資料庫和DDBJ (DNA DataBank of Japan) 資料庫進行同步交換。根據四 月份的統計顯示目前存有來自於四萬七千個物種以上的六百二十萬筆序列記錄,總計 超過七十三億個鹼基。並且NCBI提供一個方便易用的整合型檢索系統(search and retrieval system) Entrez,以利研 究人員調閱GenBank的序列。 生物資料庫的建立仍然是生物資訊學中很重要的課題, 尤其是如何使資料庫能夠支援高效率的搜尋、資料的比對、及不同資料庫間的聯繫。 對於生物資料庫有興趣的讀者可以參考 DBcat DBcat是一個很完整的生物資料庫目錄, 總共整理出五百個生物資料庫。

基因組序列分析和基因預測

隨著Human Genome Project而來的大量DNA序列資料馬上產生一個重要的課題:如何 從中找到人類的大約十萬個基因?人類的DNA序列中大概僅有5 %的部份是能產生蛋白 質的基因,因此要從人類基因組中辨認出有功能的基因,首先就必須先了解基因的結 構。一般來說人類基因可簡單分為以下幾個部份:promoter, 5'UTR(untranslated region), exons, introns, 3'UTR, polyadenylation site。其中只有exon才攜帶產 生蛋白質的訊息。因此辨認基因的電腦程式最主要的任務就是從DNA序列中找出 start codon, stop codon, 及splicing site(分為donor 和acceptor sites),進而 將同一基因所有的exon拼湊出來,最終的目的就是建立出一個完整的基因。科學家研 究使用電腦方法去預測散佈在基因組中的基因已經有十五年的歷史。目前預測基因的 電腦方法大致可分為兩種:一是根據機率與統計的方法,另一是尋找相似性 (smilarity or homology)的方法。尋找相似性就是運用和BLAST (Basic Local Alignment Search Tool)相似的原理。隨著已知的基因的大量累積, 新的電腦程式大都採用尋找相似性的方法。有些程式同時植入這兩種方法來預測基因。 以下列出一些基因預測程式作為參考:
值得一提的是沒有一個程式是十全十美,一般來說,如果能有60 %的準確率就算不錯。 對於預測基因有興趣的讀者可以參考 http://linkage.rockefeller.edu/wli/gene/, 這個網頁收集了許多有關基因預測的論文。

專利權之爭?

雖然對於基因是否可以申請專利一直是高度爭議性的問題(尤其是這些由電腦程式預 測、完全未經實驗室驗證的基因),美國還是一直允許申請基因專利。NIH的立場是傾 向反對授予專利權給這些由電腦預測的基因,然而PTO(Patent and Trademark Office) 仍然堅持給予專利權。所以許多美國公司非常熱衷於基因專利的申請,其中以Incyte最 為積極。根據華爾街日報在上一季的一篇報導,Incyte擁有超過350個基因專利,另外有 6500個申請正在等待通過,而且每星期又有100個基因準備申請。Incyte希望將來能由這 些基因發展出來的商品收取銷售額1-5%的權利金。一些引起重要疾病的基因將被各大藥 廠視為有潛力的藥物作用目標,因此預計未來將有一場基因爭奪戰,許多公司不惜上法 庭挑戰這些專利。

參考與相關連結:

SciScape專題文章 [回SciScape首頁] [回專題文章區]