估測人類基因組中基因數量的最早嘗試涉及喝醉酒的基因學家、美國紐約冷泉港的一個酒吧以及純粹的臆測。
那是2000年。
當時,人類基因組序列草圖仍在繪制中。
基因學家正在打賭人類擁有多少基因,賭注從幾萬個到幾十萬個不等。
近20年後,掌握了真實數據的科學家仍無法就這一數量達成一致。
在他們看來,這一知識鴻溝阻礙了發現相關疾病突變的努力。
填補這一空白的最新努力利用了來自上百個人類組織樣本的數據,並于日前發表在預印本服務器BioRxiv上。
它包括近5000個此前未被發現的基因,其中近1200個攜带制造蛋白質的指令。
2.1萬余個蛋白質編碼基因的總數和此前估測(認為這一數字在2萬左右)相比有大幅提高。
不過,很多遺傳學家仍不相信所有最新提出的基因都能經得起仔細推敲。
他們的批評強調了辨別新基因甚至定義一個基因的難度。
“20年來,人們一直致力于此項研究,但我們仍未獲得答案。”带領團隊開展最新研究的約翰斯·霍普金斯大學計算生物學家Steven Salzberg表示。
2000年,隨着基因組學界就有多少人類基因將被發現的問題展開熱烈討論,Ewan Birney發起了GeneSweep競賽。
如今身為歐洲生物信息學研究所(EBI)聯合所長的Birney在一年一度的基因組學會議期間,在一間酒吧里最先下注。
這場競賽最終吸引了1000多人參與以及3000美元的累積賭注。
關于基因數量的賭注從多于31.2萬個到不足2.6萬個不等,平均在4萬左右。
當時,估測的數量范圍已經縮小,但仍存在不同意見。
基因數量依據被分析的數據、利用的工具以及剔除錯誤信息的標准而有所不同。
最新計數利用了一個更大的數據集、另一種不同于此前努力的計算方法,以及定義基因的更寬泛標准。
Salzberg團隊利用了基因型組織表達(GTEx)項目的數據。
該項目對從幾百具屍體上采集的30多個不同組織的RNA進行了測序。RNA是DNA和蛋白質之間的“媒介”。
研究人員想辨別出編碼蛋白質的基因以及不編碼蛋白質但仍在細胞中扮演重要角色的基因。
為此,他們組裝了GTEx的9000億個微小RNA片段並將其同人類基因組進行比對。
不過,僅一段DNA被表達為RNA並不意味着它是一個基因。
為此,該團隊嘗試利用各種標准過濾掉噪音。
例如,他們將獲得的結果同來自其他物種的基因組進行比較,並且推斷遠親生物共享的序列可能在進化過程中被保存下來,因為它們是有用的,基因也可能如此。
研究人員獲得了21306個蛋白質編碼基因和21856個非編碼基因——遠多于兩個最廣泛使用的人類基因數據庫中的基因數量。
由EBI維護的GENCODE基因集包括19901個蛋白質編碼基因和15779個非編碼基因。
由美國國家生物技術信息中心(NCBI)管理的RefSeq數據庫擁有20203個蛋白質編碼基因和17871個非編碼基因。
NCBI基因組研究人員、RefSeq 之前的負責人Kim Pruitt表示,出現這一差異的部分原因可能是Salzberg團隊分析的數據量不同。
不過,還有另外一個重要差異。GENCODE和RefSeq均依賴于人工管理——有人評審每個基因的證據並且作出最終判斷。
Salzberg團隊則完全依賴于計算機程序篩選數據。
“如果人們喜歡我們的基因目錄,那麼或許幾年後我們將成為人類基因的仲裁者。”Salzberg說。
不過,很多科學家表示,他們需要更多證據以確信最新目錄是准確的。
協調GENCODE人工注釋工作的EBI計算生物學家Adam Frankish介紹說,他和團隊已經掃描了Salzberg團隊辨別的約100個蛋白質編碼基因。
根據他們的估測,僅有1個看上去是真正的蛋白質編碼基因。
與此同時,Pruitt小組分析了Salzberg團隊公布的約十幾個新的蛋白質編碼基因,但並未發現任何符合RefSeq標准的基因。
一些同看上去屬于侵入人類祖先基因組的逆轉錄病毒的基因組區域重疊,剩下的則屬于極少被翻譯成蛋白質的其他重復性片段。
不過,Salzberg認為,一些重復序列可被視為基因。
一個例子是出現在RefSeq 中並且編碼在結直腸癌中過度表達的蛋白質的ERV3-1。Salzberg還承認,位于其團隊目錄中的新基因有待該團隊和其他人確認。