機制圖:ncORF 如何被判定為蛋白質基因或 peptidein
證據三來源 → 分層 → 加上演化約束與功能篩選 → 判定。
一句話總結
這篇 Nature 論文由國際 TransCODE 聯盟整合「質譜蛋白質體、HLA 免疫胜肽體、核糖體定序」三種證據,為 7,264 個非典型開放閱讀框(ncORF)建立蛋白質層級的證據地圖,並提出一個新的註解概念:**peptidein**。
簡單內容概述
- 核心問題:人類基因體是否編碼遠多於約 19,500 個典型蛋白質基因?過去十年發現數千個 ncORF 會被轉譯成「微蛋白(microprotein)」。
- 做法:建立兩個大型 PeptideAtlas — 非 HLA 版(35 億條質譜)與 HLA 版(2.4 億條質譜),以非常嚴格的 FDR(蛋白層級 <0.1%)搜尋這 7,264 個 ncORF。
- 主要發現:
- 約 25%(1,785 / 7,264)的 ncORF 在 HLA 免疫胜肽體資料中被偵測到。
- 傳統胰蛋白酶質譜只測到約 2.5%(183 個)——因為微蛋白太短,難以符合 HUPO-HPP 的兩條胜肽、涵蓋 18 個胺基酸的標準。
- 建立一套分層(tier)系統與標準化註解流程;GENCODE 已把其中數個 ncORF 正式註解為蛋白質基因。
機制邏輯(核心流程)
蒐證:對每個 ncORF 同時檢視三種證據 —— 核糖體定序(是否被轉譯)、質譜(是否有蛋白)、免疫胜肽體(是否被 HLA 呈現於細胞表面)。
分層:依證據強度先給暫定 tier,再經人工檢視給最終 tier(1A 最強,需兩條質譜胜肽+核糖體訊號;往下到 tier 5 僅為電腦預測)。
演化約束(ORBL):作者自創 ORBL 方法,量化「ORFness」在多物種的保守度(起始碼、終止碼、讀框是否保留),並用 ORBLq 排除「短序列偶然保守」的干擾。結果約 30% 的 ncORF 顯示顯著約束,且被偵測到的 ncORF 約束明顯更高。
功能基因體:用 CRISPR–Cas9 篩選(>2,000 個 ncORF、8 株細胞)找出具 pan-essential(廣泛必需)表型的 ncORF。
命名規則:證據足夠且在正常細胞有功能 → 認定為蛋白質基因;證據足夠但功能或生理角色尚未確立 → 命名為 **peptidein**。
為什麼重要 / 應用
- 把長期被忽略的「暗蛋白質體(dark proteome)」正式帶進基因註解體系(GENCODE / UniProt / HUPO-HPP)。
- 癌症免疫治療:許多 ncORF 胜肽以 HLA 呈現,可成為癌症專一的「隱性抗原」靶點。
- 代表案例:lncRNA OLMALINC 上的 c10riboseqorf92 是一個 pan-essential 的 peptidein,敲除會讓多種癌細胞失去活性,且與有絲分裂、DNA 損傷調控相關。
關鍵名詞
- ncORF:非典型開放閱讀框,過去未被正式註解、但可被轉譯的片段。
- microprotein(微蛋白):由 ncORF 轉譯出的小蛋白。
- peptidein:已確認被轉譯與合成、但功能或蛋白基因地位尚未確立的分子(本文提出的新概念)。
- ORBL / ORBLq:量化 ORF 演化保守與約束的方法(ORF Relative Branch Length)。
- HLA 免疫胜肽體:被 HLA 呈現在細胞表面的胜肽集合。
- tier 1A–5:依證據強度排列的分層系統。
備註
這是論文重點整理(資料來源:Nature,DOI 10.1038/s41586-026-10459-x),非醫療建議;細節請以原文為準。