scRNA-seq 的(de)(de)(de)原始數(shu)據(ju)(ju)格式(shi)和目前大多數(shu) scRNA-seq 分析(xi)過程(cheng)(cheng)都基于 FASTQ 文件(jian)(或壓縮格式(shi) fq.gz)。Illumina 平(ping)臺測(ce)序數(shu)據(ju)(ju)默(mo)認生成 BCL 格式(shi)文件(jian),可以(yi)通(tong)(tong)過 CellRanger mkfastq 進行(xing)轉(zhuan)換。scRNAseq 的(de)(de)(de)分析(xi)流程(cheng)(cheng)包(bao)括(kuo)(kuo)數(shu)據(ju)(ju)預處(chu)理(li)、處(chu)理(li)和擴展下游分析(xi)(圖 4),其中數(shu)據(ju)(ju)預處(chu)理(li)包(bao)括(kuo)(kuo)質控、read 比對和表達量(liang)化(hua);數(shu)據(ju)(ju)處(chu)理(li)包(bao)括(kuo)(kuo)標準化(hua)、批次效(xiao)應校正、歸一化(hua)、特征(zheng)選擇(ze)(HVG 選擇(ze))、降(jiang)維(wei)與(yu)聚類、細(xi)(xi)胞分型注釋、差異(yi)表達分析(xi)(DEGs)、可視化(hua);擴展下游分析(xi)包(bao)括(kuo)(kuo)擬時序、細(xi)(xi)胞間相互作(zuo)用(CCI)、通(tong)(tong)路富集分析(xi)、基因(yin)調控網絡(luo)(GRN)等下游分析(xi)。整體來(lai)看,scRNAseq 分析(xi)方法層出(chu)不(bu)窮,沒有絕對完(wan)美適(shi)用于所有場景的(de)(de)(de)方法,分析(xi)工具重要的(de)(de)(de)是獲取生物學信息,難點(dian)在于選擇(ze)最合適(shi)的(de)(de)(de)方法。本(ben)文中,我們將提(ti)出(chu)總(zong)結(jie)常見的(de)(de)(de)單細(xi)(xi)胞轉(zhuan)錄(lu)組分析(xi)方法,并對其優缺(que)點(dian)和適(shi)用范圍提(ti)出(chu)建(jian)議。
圖 4:單(dan)細(xi)胞(bao)(bao)分(fen)(fen)析(xi)概覽。A. 在預處理階(jie)段,基(ji)于(yu)測序數(shu)據(ju),細(xi)胞(bao)(bao) - 基(ji)因(yin)矩(ju)陣讀數(shu)通過(guo)單(dan)細(xi)胞(bao)(bao)讀數(shu)校(xiao)正和定量產生(sheng);B. 分(fen)(fen)析(xi)使用的(de)高質量細(xi)胞(bao)(bao)矩(ju)陣通過(guo)原始的(de)基(ji)因(yin)表達矩(ju)陣獲得(de),通過(guo)去批次效應矯正批次,通過(guo)標準化降低生(sheng)物學差異,補充未檢(jian)測到(dao)的(de)基(ji)因(yin);C. 依照或不(bu)依照先前的(de)參考信(xin)息對細(xi)胞(bao)(bao)類(lei)型(xing)進(jin)行注釋;D. 轉(zhuan)錄組(zu)特(te)征相似的(de)細(xi)胞(bao)(bao)被歸為一類(lei),稱為“細(xi)胞(bao)(bao)簇(cluster)”,細(xi)胞(bao)(bao)的(de)可視化通過(guo)降維方法實現,差異基(ji)因(yin)分(fen)(fen)析(xi)對組(zu)間(jian)差異進(jin)行檢(jian)驗;E. 擬時(shi)序分(fen)(fen)析(xi)重建細(xi)胞(bao)(bao)轉(zhuan)錄水(shui)平變化的(de)動力學過(guo)程;F. 細(xi)胞(bao)(bao)間(jian)轉(zhuan)錄組(zu)調控關系可以通過(guo)胞(bao)(bao)間(jian)互作(zuo)分(fen)(fen)析(xi)進(jin)行推(tui)斷(duan)。
數據預處理
將原始測(ce)序數(shu)據(ju)通過(guo)濾(lv)除低質(zhi)量 reads 和環境干擾與參考(kao)基因組進(jin)行比對和量化。從而得到每(mei)個細(xi)胞的特征計數(shu)矩陣(zhen)和記(ji)錄其他(ta)信(xin)息的輔助(zhu)文件,用于下(xia)游的數(shu)據(ju)分(fen)析(圖(tu) 4 A)。
1、質控
由(you)于(yu)測序儀器問(wen)題(ti)、人為操(cao)作、細(xi)(xi)(xi)胞(bao)自發情(qing)況,或存(cun)在(zai)空液(ye)(ye)滴(di)、雙細(xi)(xi)(xi)胞(bao)、死細(xi)(xi)(xi)胞(bao)等(deng)(deng),不可避免(mian)地會產生(sheng)低質量(liang)(liang)的(de)(de)(de)測序數據(ju)(Chen 等(deng)(deng),2019a ; Hao 等(deng)(deng),2021b)。空液(ye)(ye)滴(di)通(tong)常出現在(zai)液(ye)(ye)滴(di)捕獲(huo)細(xi)(xi)(xi)胞(bao)外背景轉錄本(ben)而不是(shi)細(xi)(xi)(xi)胞(bao)時(Ilicic 等(deng)(deng),2016 ; Kolodziejczyk 等(deng)(deng),2015)。一(yi)種高度主(zhu)觀的(de)(de)(de)方(fang)法是(shi)根據(ju)曲線的(de)(de)(de)膝點確定(ding)一(yi)個 UMI 閾值,并過濾掉 UMI 計數低的(de)(de)(de)細(xi)(xi)(xi)胞(bao)。隨后(hou)使用 DropEst (Petukhov 等(deng)(deng),2018)、EmptyDrops (Lun 等(deng)(deng),2019) 和 DIEM (Alvarez 等(deng)(deng),2020) 增強過濾效果(guo)。DropletQC (Muskovic and Powell, 2021) 量(liang)(liang)化(hua)未(wei)剪接前 mRNA 含量(liang)(liang)的(de)(de)(de)核分數得分。MT 基(ji)(ji)因(yin)閾值雖然是(shi)衡量(liang)(liang)死細(xi)(xi)(xi)胞(bao)的(de)(de)(de)標準(zhun),但(dan)它的(de)(de)(de)選擇需要綜合考慮(lv)細(xi)(xi)(xi)胞(bao)生(sheng)理(li)因(yin)素 (Subramanian 等(deng)(deng),2022)。近(jin)年來,基(ji)(ji)于(yu)深度學習的(de)(de)(de)方(fang)法也應運而生(sheng),例如基(ji)(ji)于(yu)神經網絡(luo)的(de)(de)(de) EmptyNN (Yan 等(deng)(deng),2021) 和基(ji)(ji)于(yu)深度生(sheng)成(cheng)模(mo)型(xing)的(de)(de)(de) CellBender (Fleming 等(deng)(deng),2019),能夠有(you)效識(shi)別空液(ye)(ye)滴(di)中的(de)(de)(de)背景轉錄本(ben)。
雙(shuang)(shuang)細(xi)胞(bao)是(shi)(shi)指(zhi)兩個細(xi)胞(bao)包含在(zai)一個液(ye)滴中的(de)情況,根據轉錄(lu)分(fen)(fen)布可分(fen)(fen)為同源雙(shuang)(shuang)峰(feng)(feng)(feng)和(he)異源雙(shuang)(shuang)峰(feng)(feng)(feng),均(jun)服從泊松統計(ji)量(Bloom, 2018)。絕大多數方(fang)法基(ji)(ji)(ji)于基(ji)(ji)(ji)因(yin)表達計(ji)算(suan)(suan)(suan),利(li)用先驗(yan)知識或(huo)深度(du)學習獲取單峰(feng)(feng)(feng)與(yu)雙(shuang)(shuang)峰(feng)(feng)(feng)細(xi)胞(bao)的(de)差異,然后訓練分(fen)(fen)類器進行篩選(xuan),例如(ru)基(ji)(ji)(ji)于最近鄰的(de) DoubletFinder (McGinnis 等(deng)(deng),2019a)、Scrublet (Wolock 等(deng)(deng),2019);基(ji)(ji)(ji)于反卷積的(de) DoubletDecon (DePasquale 等(deng)(deng),2019)、基(ji)(ji)(ji)于變(bian)分(fen)(fen)自(zi)編碼器的(de) Solo (Bernstein 等(deng)(deng),2020) 和(he)基(ji)(ji)(ji)于集成算(suan)(suan)(suan)法的(de) Chord (Xiong 等(deng)(deng),2021a)。此外,Scds 是(shi)(shi)另一種(zhong)篩選(xuan)方(fang)法,它依賴于基(ji)(ji)(ji)于共(gong)表達的(de)雙(shuang)(shuang)聯(lian)體(ti)打分(fen)(fen)和(he)基(ji)(ji)(ji)于二分(fen)(fen)類的(de)雙(shuang)(shuang)聯(lian)體(ti)打分(fen)(fen)策(ce)略,實現 scRNA-seq 表達數據的(de)雙(shuang)(shuang)聯(lian)體(ti)分(fen)(fen)離 (Bais and Kostka,2020)。一些方(fang)法使(shi)用其他(ta)特(te)征,例如(ru) demuxlet 它使(shi)用自(zi)然遺傳變(bian)異信息指(zhi)導(dao)實驗(yan)并通過計(ji)算(suan)(suan)(suan)進行過濾 (Kang 等(deng)(deng),2018)。
合理的(de)質(zhi)控(kong)需(xu)要綜(zong)合考(kao)慮技術性和生(sheng)物性因素,這(zhe)也是(shi)當前研(yan)究的(de)主要方(fang)向(xiang)。最近(jin)一種(zhong)由生(sheng)物數據驅動的(de)自學習無監督(du)質(zhi)控(kong)方(fang)法 ddqc 被提出來,用于確定各種(zhong) GC 指標的(de)具體閾值 (Macnair and Robinson,2023)。
2、reads 比對和定量
質控后剩(sheng)余的高質量細胞需(xu)要將(jiang)這(zhe)些(xie)短 reads 映射到特(te)(te)定的參考基(ji)(ji)因組上進(jin)行比(bi)(bi)對,以(yi)此(ci)對基(ji)(ji)因表達水平進(jin)行定量。RNA 比(bi)(bi)對通常(chang)分為(wei)兩步(bu)(bu):比(bi)(bi)對 reads 以(yi)建立索引和映射 RNA 剪接序列,前(qian)一步(bu)(bu)與 DNA reads 比(bi)(bi)對共用,解(jie)決錯配問題并設置索引參考;后一步(bu)(bu)是 RNA reads 比(bi)(bi)對所(suo)特(te)(te)有的,提供連通性信(xin)息(xi)。
早(zao)期二代測(ce)序結果(guo)(guo)是(shi)幾十(shi)對(dui)長度的(de)堿(jian)基(ji)(ji) reads。Seed-to-extend (Buhler,2001)(包(bao)括(kuo)(kuo) MAQ (Li 等(deng),2008a)、SOAP (Li 等(deng),2008b)、CloudBurst (Schatz,2009)、ZOOM (Lin 等(deng),2008))、BurrowsWheeler 變換方(fang)(fang)法(fa)(fa) (Burrows and Wheeler,1994)(包(bao)括(kuo)(kuo) SOAP2 (Li 等(deng),2009)、Bowtie (Langmead 等(deng),2009)、BWA (Li and Durbin,2009))、Needleman-Wunsch 方(fang)(fang)法(fa)(fa)(包(bao)括(kuo)(kuo) Novocraft (Hercus,2009))和 suffix-tree 算(suan)法(fa)(fa)方(fang)(fang)法(fa)(fa)(包(bao)括(kuo)(kuo) MUMmer 2 (Delcher 等(deng),2002))都是(shi)百萬級短鏈 DNA 測(ce)序 reads 比(bi)對(dui)的(de)有效(xiao)工具。Bowtie 采(cai)用了(le)一(yi)(yi)種依(yi)賴(lai)于(yu) Burrows-Wheeler Transforming 的(de) FM-index 方(fang)(fang)法(fa)(fa),如果(guo)(guo) reads 有多個(ge)準確匹配則結果(guo)(guo)只報告一(yi)(yi)個(ge),與(yu) MAQ(Ferragina and Manzini,2001)相比(bi),大(da)(da)大(da)(da)優化(hua)了(le)運(yun)行(xing)內存和比(bi)對(dui)速(su)度。BWA 是(shi)另(ling)一(yi)(yi)種基(ji)(ji)于(yu) BWT 的(de)比(bi)對(dui)方(fang)(fang)法(fa)(fa),使(shi)(shi)用新(xin)的(de) SAM(Sequence Alignment/Map)格式(shi)輸(shu)出比(bi)對(dui)結果(guo)(guo)。基(ji)(ji)于(yu) MAQ 和 Bowtie 兩種短鏈 DNA 比(bi)對(dui)算(suan)法(fa)(fa),Cole Trapnell 于(yu) 2009 年(nian)提(ti)出了(le)第一(yi)(yi)個(ge)針對(dui) NGS 數據(ju)的(de) RNA-seq 比(bi)對(dui)方(fang)(fang)法(fa)(fa) TopHat,它使(shi)(shi)用 2 -bit-per-base 編碼實(shi)現 reads 與(yu)哺(bu)乳動物基(ji)(ji)因組中剪接位點的(de)有效(xiao)比(bi)對(dui),而無需事(shi)先知道剪接位點的(de)具體(ti)信(xin)息(xi)(Trapnell 等(deng),2009)。
上述方(fang)法在(zai)堿基(ji)對(dui)長度超過 50 bp 時比(bi)對(dui)精度急劇(ju)下降(Gupta 等,2018 ; Lebrigand 等,2020)。NGS 單細胞測序(xu)分析主要(yao)采用(yong)兩類方(fang)法:基(ji)于(yu) Bowtie2 的方(fang)法和(he)基(ji)于(yu) seed 策略的方(fang)法(Langmead and Salzberg, 2012)。Bowtie2 是(shi) Bowtie 的升級版,保留了 FM-index 依(yi)(yi)賴的 BWT 算法核心,允(yun)許有(you)間隙比(bi)對(dui),并(bing)使用(yong)單指令多數(shu)據(SIMD)擴展到長測序(xu)比(bi)對(dui),同(tong)時提(ti)高運行(xing)速度。Daehwan Kim 在(zai) Bowtie2 基(ji)礎上,先后提(ti)出了 TopHat2(Kim 等,2013)和(he) HISAT(Kim 等,2015)。種(zhong)(zhong)子策略主要(yao)有(you) STAR(Dobin 等,2013)和(he) Subread(Liao 等,2013)。STAR 基(ji)于(yu)最(zui)大(da)可映射前綴(MMP)的思想(xiang),采用(yong)順(shun)序(xu)檢索(suo)的策略,將與參考(kao)匹配的最(zui)長部分 reads 設(she)為種(zhong)(zhong)子 1,其余 read 繼續(xu)匹配,依(yi)(yi)次從種(zhong)(zhong)子 2 調用(yong)至種(zhong)(zhong)子 n。值得注意的是(shi),Rsubread 完全基(ji)于(yu) R 語(yu)言平(ping)臺實(shi)現(xian)了第一次 read 比(bi)對(dui)和(he)基(ji)因量化(hua)的過程(cheng)(Liao 等,2019)。
基(ji)(ji)(ji)因(yin)(yin)表(biao)達量(liang)(liang)(liang)化又可(ke)分(fen)為偽比(bi)(bi)(bi)對(dui)(dui)量(liang)(liang)(liang)化和(he)(he)基(ji)(ji)(ji)于 read 比(bi)(bi)(bi)對(dui)(dui)的(de)(de)(de)量(liang)(liang)(liang)化。偽比(bi)(bi)(bi)對(dui)(dui)是指不采(cai)用上述(shu)嚴格(ge)的(de)(de)(de)兩步(bu)法(fa)(fa)將所有(you) reads 比(bi)(bi)(bi)對(dui)(dui)到(dao)參(can)考基(ji)(ji)(ji)因(yin)(yin)組(zu)(zu)上,包括選(xuan)定(ding)的(de)(de)(de) k-mers 比(bi)(bi)(bi)對(dui)(dui)方法(fa)(fa)(Sailfish(Patro 等(deng)(deng)(deng),2014)、Kallisto(Bray 等(deng)(deng)(deng),2016)、Salmon(Patro 等(deng)(deng)(deng),2017)、RapMap(Srivastava 等(deng)(deng)(deng),2016)和(he)(he) Barcode-UMI-Set (BUS) 比(bi)(bi)(bi)對(dui)(dui)方法(fa)(fa) BUStools(Melsted 等(deng)(deng)(deng),2019)。Kallisto-BUStools 是最新的(de)(de)(de)工作流程(cheng),它使用 BUS 文(wen)件格(ge)式進行初(chu)始數(shu)(shu)(shu)據預(yu)處(chu)理(li)(li),與 BUStools 一(yi)樣(yang),偽比(bi)(bi)(bi)對(dui)(dui)結(jie)果和(he)(he)量(liang)(liang)(liang)化計數(shu)(shu)(shu)都(dou)保存(cun)在 BUS 文(wen)件中(Melsted 等(deng)(deng)(deng),2021)。另一(yi)方面,基(ji)(ji)(ji)于 reads 比(bi)(bi)(bi)對(dui)(dui)的(de)(de)(de)方法(fa)(fa)依賴于 RNA reads 比(bi)(bi)(bi)對(dui)(dui)方法(fa)(fa)的(de)(de)(de)結(jie)果來量(liang)(liang)(liang)化基(ji)(ji)(ji)因(yin)(yin)。CellRanger 是 10x Genomic 公司指定(ding)替(ti)代 Longranger 的(de)(de)(de)官方開源數(shu)(shu)(shu)據預(yu)處(chu)理(li)(li)軟件(Zheng 等(deng)(deng)(deng),2017)。STARsolo 是替(ti)代 Cellranger 的(de)(de)(de) mapping/quantification 功能(neng)的(de)(de)(de)工具,可(ke)實(shi)現(xian)多(duo)平臺測序數(shu)(shu)(shu)據的(de)(de)(de)分(fen)析和(he)(he)基(ji)(ji)(ji)因(yin)(yin)表(biao)達之外的(de)(de)(de)轉錄組(zu)(zu)特征的(de)(de)(de)量(liang)(liang)(liang)化(Kaminow 等(deng)(deng)(deng),2021)。其他基(ji)(ji)(ji)于 reads 比(bi)(bi)(bi)對(dui)(dui)的(de)(de)(de)基(ji)(ji)(ji)因(yin)(yin)表(biao)達定(ding)量(liang)(liang)(liang)方法(fa)(fa)如 UMItools (Smith 等(deng)(deng)(deng),2017)、zUMIs (Parekh 等(deng)(deng)(deng),2018)、Alevin-fry (He 等(deng)(deng)(deng),2022)、DropEst (Petukhov 等(deng)(deng)(deng),2018)、RainDrop (Niebler 等(deng)(deng)(deng),2020)、baredSC (Lopez-Delisle and Delisle, 2022)、BCseq (Chen and Zheng, 2018) 使用各(ge)種質量(liang)(liang)(liang)過(guo)濾器和(he)(he) barcode/UMI 處(chu)理(li)(li)策略(lve)在一(yi)定(ding)程(cheng)度上提高了 CellRanger 的(de)(de)(de)性能(neng)。
CellRanger 和 STARsolo 在(zai)(zai)處理包括 10x Chromium 在(zai)(zai)內的(de)(de)(de)各(ge)種單細胞轉錄組數(shu)據集時都具有(you)良好的(de)(de)(de)運(yun)行速度(du),并且準(zhun)確度(du)極高。但在(zai)(zai)獲得幾乎(hu)相(xiang)同結果的(de)(de)(de)前(qian)提下,后者(zhe)相(xiang)比(bi)前(qian)者(zhe)提升了(le)至少 5 倍的(de)(de)(de)運(yun)行速度(du),這也驗證了(le) Alexander Dobin 等(deng)(deng)人使用 STARsolo 取(qu)代 CellRanger 的(de)(de)(de)目的(de)(de)(de)(Brüning 等(deng)(deng),2022 ; Chen 等(deng)(deng),2021a ; You 等(deng)(deng),2021)。
數據處理
在對表達矩陣進(jin)行(xing)必要的(de)(de)調整(zheng)(Normalization、Batch Effect Correction、Imputation)后,即可(ke)從單(dan)細胞(bao)轉(zhuan)錄(lu)(lu)組(zu)數(shu)(shu)據中充分(fen)(fen)挖(wa)掘出生物信息進(jin)行(xing)分(fen)(fen)析(xi)。Seurat 和 Scanpy 分(fen)(fen)別(bie)基于(yu) R 和 Python 對上述(shu)過程進(jin)行(xing)模塊化、可(ke)擴展(zhan)的(de)(de)處理,是目(mu)前單(dan)細胞(bao)轉(zhuan)錄(lu)(lu)組(zu)數(shu)(shu)據的(de)(de)主流分(fen)(fen)析(xi)流程(Satija 等(deng),2015 ; Wolf 等(deng),2018)。常規分(fen)(fen)析(xi)流程和預期處理結果可(ke)參見總分(fen)(fen)析(xi)框架(圖 4 B-D)。
1、標準化
在(zai)測序過(guo)程(cheng)中,技術原因或者(zhe)細胞(bao)本身的生物學差(cha)異(yi)可能造(zao)成同(tong)一樣(yang)本內(細胞(bao)之(zhi)間)或者(zhe)不同(tong)樣(yang)本之(zhi)間的文(wen)庫大(da)小差(cha)異(yi)(Marinov 等,2014)。無限數(shu)方法按(an)照文(wen)庫大(da)小進行處(chu)理(li),按(an)照具體原理(li)大(da)致可以分為基于全局縮放(fang)的標(biao)準化(hua)、spike-in 標(biao)準化(hua)和其他(ta)數(shu)據(ju)變換模型標(biao)準化(hua)。
全局(ju)縮(suo)(suo)(suo)放(fang)(fang)(fang)(fang)(fang)方法最(zui)初是(shi)為 bulk RNA 分析(xi)而發展起來(lai)的(de)(de),通過特(te)定的(de)(de)縮(suo)(suo)(suo)放(fang)(fang)(fang)(fang)(fang)因子(zi)對(dui)全局(ju)數(shu)(shu)(shu)據進(jin)行縮(suo)(suo)(suo)放(fang)(fang)(fang)(fang)(fang)(Finak 等(deng)(deng)(deng)(deng),2015)。每(mei)(mei)萬計數(shu)(shu)(shu)(CPT)變換和(he)每(mei)(mei)百(bai)萬計數(shu)(shu)(shu)(CPM)變換是(shi)常(chang)見的(de)(de)線(xian)性(xing)縮(suo)(suo)(suo)放(fang)(fang)(fang)(fang)(fang)方法,在不(bu)考(kao)慮 spike-in count 的(de)(de)情況(kuang)下,它們(men)都對(dui)每(mei)(mei)個(ge) UMI/ 總 UMI count 等(deng)(deng)(deng)(deng)距縮(suo)(suo)(suo)放(fang)(fang)(fang)(fang)(fang)。其他標準(zhun)化方法包(bao)括(kuo)每(mei)(mei)百(bai)萬 reads 數(shu)(shu)(shu)(RPM)(Mortazavi 等(deng)(deng)(deng)(deng),2008)、修剪(jian)均(jun)值 M 值(TMM)、DESeq(Robinson and Oshlack, 2010)、上(shang)四分位縮(suo)(suo)(suo)放(fang)(fang)(fang)(fang)(fang)(Bullard 等(deng)(deng)(deng)(deng),2010)、FPKM(Trapnell 等(deng)(deng)(deng)(deng),2010)、RPKM(Tu 等(deng)(deng)(deng)(deng),2012)等(deng)(deng)(deng)(deng),它們(men)對(dui)于極值的(de)(de)穩(wen)定性(xing)比線(xian)性(xing)縮(suo)(suo)(suo)放(fang)(fang)(fang)(fang)(fang)更好,因此與(yu) RPKM/FPKM 一(yi)樣(yang)具有更廣泛的(de)(de)應用范圍。但單獨(du)使用該類(lei)方法進(jin)行單細(xi)胞(bao)轉錄組的(de)(de)標準(zhun)化時(shi),由于數(shu)(shu)(shu)據的(de)(de)稀疏性(xing)和(he)假陽性(xing)率虛高(gao),效果并不(bu)可接受(shou)(Evans 等(deng)(deng)(deng)(deng),2018),與(yu)特(te)定方法結合時(shi)往(wang)往(wang)需(xu)要改(gai)進(jin)。SCnorm 使用分位數(shu)(shu)(shu)回歸(gui)方法來(lai)評估不(bu)同測序深度依賴細(xi)胞(bao)組之(zhi)間的(de)(de)尺度因子(zi)(Bacher 等(deng)(deng)(deng)(deng),2017)。bayNorm 基于基因原始(shi)計數(shu)(shu)(shu)與(yu)真(zhen)實計數(shu)(shu)(shu)服從負二(er)項(NB)分布(bu)的(de)(de)假設,使用集成貝葉斯模型對(dui) scRNA-seq 數(shu)(shu)(shu)據進(jin)行標準(zhun)化(Tang 等(deng)(deng)(deng)(deng),2020)。
spike-in 標準化(hua)方(fang)法(fa)(fa)可(ke)以(yi)(yi)看(kan)作(zuo)是(shi)全局尺度方(fang)法(fa)(fa)的(de)另一種擴展,因(yin)(yin)為尺度因(yin)(yin)子(zi)是(shi)根(gen)據 spike-in 基因(yin)(yin)計(ji)算(suan)出來的(de)。需(xu)要注意的(de)是(shi),將 RNA spike-ins 的(de)信息(xi)添加到其他方(fang)法(fa)(fa)中也可(ke)以(yi)(yi)提高 SCnorm 等標準化(hua)的(de)效果(guo)。GRM 是(shi)一種基于(yu)(yu) spike-in ERCC 分(fen)子(zi)濃度伽馬(ma)分(fen)布的(de)方(fang)法(fa)(fa),其中 ERCC 是(shi)測序中常用的(de)校準材料(Ding 等,2015)。BASiCS 是(shi)一種自動貝葉(xie)斯標準化(hua)方(fang)法(fa)(fa),將泊(bo)松分(fen)層模型應用于(yu)(yu) spike-in(技(ji)術(shu))基因(yin)(yin),以(yi)(yi)推斷細(xi)胞特定的(de)標準化(hua)常數(Vallejos 等,2015)。
以(yi)(yi)上(shang)方(fang)(fang)(fang)法(fa)都(dou)是在細胞內 RNA 數量恒定的(de)假(jia)設下對基因(yin)進行縮放,而這可能具有欺騙性,因(yin)此其他(ta)轉(zhuan)(zhuan)化(hua)(hua)(hua)模(mo)型(xing)采用了不同的(de)策略。由于(yu)(yu)單細胞轉(zhuan)(zhuan)錄組數據(ju)存在零膨脹問題,一(yi)些模(mo)型(xing)就是為(wei)此而設計的(de),例如(ru)(ru)相對對數表達(RLE)方(fang)(fang)(fang)法(fa) ascend(Senabouth 等,2019)和(he)基于(yu)(yu) NB 的(de)模(mo)型(xing),如(ru)(ru) Dino(Brown 等,2021)、scTransform(Hafemeister and Satija, 2019)。其他(ta)轉(zhuan)(zhuan)化(hua)(hua)(hua)模(mo)型(xing)歸一(yi)化(hua)(hua)(hua)方(fang)(fang)(fang)法(fa)如(ru)(ru) MUREN 使用最小二乘(LTS)回歸算法(fa)(Feng and Li, 2021);Sanity 使用從(cong) UMI 計數推斷出(chu)的(de)對數轉(zhuan)(zhuan)錄商(LTQ)作為(wei)貝葉斯框(kuang)架的(de)輸(shu)入,以(yi)(yi)避(bi)免泊松波動,因(yin)為(wei) LTQ 向量的(de)變化(hua)(hua)(hua)估(gu)計了基因(yin)表達值(Breda 等,2021);PsiNorm 是一(yi)種(zhong)基于(yu)(yu)無監(jian)督帕累托分布(bu)尺度參數的(de)方(fang)(fang)(fang)法(fa),用于(yu)(yu)提升(sheng)標準(zhun)化(hua)(hua)(hua)效率和(he)準(zhun)確(que)率(Borella 等,2021)。Charles Wang 比較(jiao)了 sctransform、TMM、DESeq 等共 8 種(zhong)標準(zhun)化(hua)(hua)(hua)方(fang)(fang)(fang)法(fa),其中(zhong) sctransform 和(he) logCPM(Seurat 的(de)內置處理方(fang)(fang)(fang)法(fa))受數據(ju)影響最小,在可變數據(ju)集上(shang)最穩定(Chen 等,2021a)。
2、批次效應校正
由(you)(you)于(yu)實驗(yan)設計(ji)、測(ce)(ce)序(xu)平臺、測(ce)(ce)序(xu)時間、人員操作(zuo)流程(cheng)等(deng)原因,不同(tong)的(de)單細胞轉錄組測(ce)(ce)序(xu)數據在(zai) mRNA 捕獲(huo)效(xiao)(xiao)率、測(ce)(ce)序(xu)深度等(deng)會存在(zai)明顯差異,從而產生(sheng)樣(yang)本間的(de)批(pi)次(ci)效(xiao)(xiao)應(ying)(Chen 等(deng),2019a;Hwang 等(deng),2018;Tung 等(deng),2017)。理論上可(ke)以(yi)通(tong)過實驗(yan)策略(lve)消除技術變(bian)異,但由(you)(you)于(yu)實驗(yan)過程(cheng)的(de)客觀(guan)限制以(yi)及測(ce)(ce)序(xu)儀器誤差,不可(ke)避(bi)免地會或多(duo)或少地引入批(pi)次(ci)效(xiao)(xiao)應(ying)。利用(yong)計(ji)算方(fang)法(fa)進行校正是(shi)解(jie)決不完善實驗(yan)設計(ji)的(de)必(bi)要手段,通(tong)常使用(yong)的(de)方(fang)法(fa)可(ke)以(yi)分為相互最近鄰(MNN)方(fang)法(fa)、基(ji)于(yu)潛在(zai)空間的(de)方(fang)法(fa)、基(ji)于(yu)圖的(de)方(fang)法(fa)、DL 方(fang)法(fa)和其他方(fang)法(fa)。
MNN 首先識別(bie)出不(bu)同批次(ci)之間(jian)同一細(xi)胞(bao)(bao)類(lei)型的最相(xiang)(xiang)似細(xi)胞(bao)(bao),然(ran)后利用(yong)(yong)這些細(xi)胞(bao)(bao)進行批次(ci)效(xiao)應校正,包括 batchelor(Haghverdi 等(deng),2018)、Scanorama(Hie 等(deng),2019)、Canek(Loza 等(deng),2022)。另(ling)一類(lei)使用(yong)(yong) MNN 的方法是(shi)基(ji)于(yu)降維后的潛在空間(jian),如 Seurat (Satija 等(deng),2015)、BEER (Zhang 等(deng),2019b)、SMNN (Yang 等(deng),2021a)、iSMNN (Yang 等(deng),2021b)。例如,Seurat 使用(yong)(yong)典型相(xiang)(xiang)關分(fen)析(xi) (CCA) 潛在空間(jian)中的 MNN 對(dui) (稱為“錨點”)來(lai)匹(pi)配相(xiang)(xiang)似細(xi)胞(bao)(bao),而 BEER 使用(yong)(yong)主(zhu)成分(fen)分(fen)析(xi) (PCA) 子空間(jian)來(lai)篩選相(xiang)(xiang)似性較差的子群(qun)。SMNN 和 iSMNN 分(fen)別(bie)采用(yong)(yong)監督機器學習和迭代監督機器學習來(lai)細(xi)化從(cong)預校正細(xi)胞(bao)(bao)聚(ju)類(lei)或迭代細(xi)胞(bao)(bao)聚(ju)類(lei)信(xin)息中訓練出的 MN 對(dui)。
基(ji)于潛在(zai)空(kong)間的(de)方(fang)法(fa)是指在(zai)隱(yin)藏空(kong)間或降維后的(de)嵌入(ru)(ru)中進行(xing)批(pi)次(ci)效應(ying)校(xiao)正(zheng)的(de)方(fang)法(fa),除(chu)了基(ji)于 MNN 聚類的(de)策略外,還有與 PCA 相關的(de)空(kong)間方(fang)法(fa) Harmony(Korsunsky 等(deng),2019)、FIRM(Ming 等(deng),2022)、Monet(Wagner, 2020);t 分(fen)布(bu)隨機鄰域嵌入(ru)(ru) (tSNE) 空(kong)間方(fang)法(fa) sc_tSNE(Aliverti 等(deng),2020)和 ZINBWaVE(Gao 等(deng),2019)。Harmony 被廣(guang)泛用(yong)(yong)于去除(chu)樣本間的(de)批(pi)次(ci)效應(ying),使(shi)用(yong)(yong) PCA 方(fang)法(fa)將排序的(de)細(xi)(xi)胞輸(shu)入(ru)(ru)到單個公共嵌入(ru)(ru)中,然(ran)后在(zai)最(zui)大(da)多樣性(xing)聚類和線性(xing)批(pi)次(ci)校(xiao)正(zheng)之間迭代循環,直到為每個細(xi)(xi)胞分(fen)配一個特定的(de)校(xiao)正(zheng)因(yin)子(zi),可用(yong)(yong)于后續的(de)批(pi)次(ci)效應(ying)去除(chu)。Sc_tSNE 方(fang)法(fa)引入(ru)(ru)梯度下降算法(fa)對傳統 t -SNE 算法(fa)進行(xing)優化,隨后采(cai)用(yong)(yong)線性(xing)校(xiao)正(zheng)(Aliverti 等(deng),2021)。ZINB-WaVE 最(zui)初設計(ji)用(yong)(yong)于在(zai)單細(xi)(xi)胞數據中進行(xing)基(ji)因(yin)提取,Risso et al.(2018)將該方(fang)法(fa)擴展至小批(pi)量優化。
基于圖(tu)的(de)方(fang)法(fa)(fa)利(li)用細(xi)胞(bao)基因表達(da)矩(ju)陣將數(shu)字(zi)信息轉(zhuan)化為空間構(gou)造的(de)圖(tu),其中節點代(dai)表不(bu)同(tong)類型的(de)批次,邊的(de)權重基于不(bu)同(tong)的(de)計算方(fang)法(fa)(fa)。BBKNN 利(li)用 k 近鄰細(xi)胞(bao)構(gou)建圖(tu)(KNN 圖(tu)),通過使(shi)用均勻流(liu)形近似與投影(UMAP)方(fang)法(fa)(fa)合并不(bu)同(tong)數(shu)據(ju)集間單(dan)個細(xi)胞(bao)的(de)圖(tu)實現批次效應(ying)校(xiao)正,這也(ye)是 Scanpy 工作(zuo)流(liu)程(cheng)中的(de)默認方(fang)法(fa)(fa)(Pola ński 等(deng)(deng),2020 ; Wolf 等(deng)(deng),2018)。王波在 OCAT 中提出“幽靈細(xi)胞(bao)”(默認為 k-means 算法(fa)(fa)聚類中心)來制作(zuo)細(xi)胞(bao)連接(jie)的(de)二分圖(tu)(Wang 等(deng)(deng),2022a)。
近年(nian)(nian)來,深度學(xue)習(xi)方(fang)(fang)法(fa)的(de)(de)(de)(de)快速發展(zhan)也(ye)為批(pi)次效應(ying)校正提(ti)供(gong)了新思路,實現高效、大通量的(de)(de)(de)(de)數(shu)據(ju)(ju)(ju)處理,如 INSCT(Simon 等(deng),2021)(三(san)重(zhong)態神經(jing)網(wang)絡)、CLEAR(Han 等(deng),2022)(自監督對(dui)(dui)比學(xue)習(xi))、BERMUDA(Wang 等(deng),2019e)(遷(qian)移學(xue)習(xi))、iMAP(Wang 等(deng),2021a)(VAE-GAN)、ResPAN(Wang 等(deng),2022e)(Wasserstein GAN),一些新方(fang)(fang)法(fa)被證明(ming)在(zai)批(pi)次效應(ying)校正方(fang)(fang)面有更好(hao)的(de)(de)(de)(de)效果;例如,基(ji)于從 SciBet 學(xue)習(xi)到的(de)(de)(de)(de)帶注釋數(shu)據(ju)(ju)(ju)集(ji)中(zhong)(zhong)的(de)(de)(de)(de)生物學(xue)先驗知識(shi),SSBER 可(ke)以(yi)在(zai)大型 RNA 測序(xu)數(shu)據(ju)(ju)(ju)集(ji)中(zhong)(zhong)去(qu)除批(pi)次效應(ying)(Zhang and Wang,2021)。建(jian)議在(zai)整(zheng)合(he)(he)單細胞轉錄組數(shu)據(ju)(ju)(ju)之前,應(ying)根據(ju)(ju)(ju)數(shu)據(ju)(ju)(ju)的(de)(de)(de)(de)實際情況(kuang)先測試(shi)多(duo)種(zhong)方(fang)(fang)法(fa),然(ran)后選擇最合(he)(he)適的(de)(de)(de)(de)批(pi)次效應(ying)去(qu)除方(fang)(fang)法(fa)。例如,Jinmiao Chen 團(tuan)(tuan)隊和 Charles Wang 團(tuan)(tuan)隊分別(bie)于 2020 年(nian)(nian)和 2021 年(nian)(nian)對(dui)(dui)本綜述 2.2 中(zhong)(zhong)提(ti)到的(de)(de)(de)(de)前三(san)種(zhong)方(fang)(fang)法(fa)的(de)(de)(de)(de)大部分進行了基(ji)準測試(shi),證明(ming)了 Harmony 和 Seurat V3 在(zai)大多(duo)數(shu)情況(kuang)下都能(neng)達到良(liang)好(hao)的(de)(de)(de)(de)批(pi)次效應(ying)校正效果,這符合(he)(he)這兩種(zhong)方(fang)(fang)法(fa)如今仍然(ran)被廣泛(fan)使用,但(dan)對(dui)(dui)于深度學(xue)習(xi)方(fang)(fang)法(fa)來說仍然(ran)缺乏好(hao)的(de)(de)(de)(de)指標這一事實(Chen 等(deng),2021a;Tran 等(deng),2020)。
3、填補
測序過程中(zhong)會(hui)引入大量 0 值(高通量大規模 10x 基因組(zu)測序數據中(zhong)零值可能超過 90%)(Stegle 等,2015 ; Talwar 等,2018),這會(hui)干擾(rao)下游生物(wu)學差異(yi)分(fen)析,因此必須對(dui)原(yuan)始基因表達(da)矩陣中(zhong)的缺失數據值進行填補,同(tong)時有效區分(fen)技術噪音零值與(yu)生物(wu)學零值。
基(ji)(ji)(ji)因(yin) / 細(xi)胞(bao)(bao)分離方法(fa)(fa)主(zhu)要應用(yong)于早期的(de)(de)(de)(de)(de)填補,其分別考慮細(xi)胞(bao)(bao)相似(si)性(MAGIC (van Dijk 等(deng)(deng)(deng)(deng)(deng),2018)、Sclmpute (Li and Li, 2018)、VIPER (Chen and Zhou, 2018)、RESCUE (Tracy 等(deng)(deng)(deng)(deng)(deng),2019)、scRMD (Chen 等(deng)(deng)(deng)(deng)(deng),2020a)、scRoc (Ran 等(deng)(deng)(deng)(deng)(deng),2020))或(huo)基(ji)(ji)(ji)因(yin)間關(guan)系(xi)(SAVER (Huang 等(deng)(deng)(deng)(deng)(deng),2018a)、SAVER-X (Wang 等(deng)(deng)(deng)(deng)(deng),2019a)、G253 (Wu 等(deng)(deng)(deng)(deng)(deng),2021e)、DCA (Eraslan 等(deng)(deng)(deng)(deng)(deng),2019)、DeepImpute (Arisdakessian 等(deng)(deng)(deng)(deng)(deng),2019))。總體(ti)而言,這些方法(fa)(fa)缺乏對數(shu)據(ju)集(ji)(ji)整體(ti)的(de)(de)(de)(de)(de)考慮,容易導致(zhi)過度(du)插(cha)(cha)(cha)(cha)補或(huo)者引(yin)入(ru)誤差(Zhang 等(deng)(deng)(deng)(deng)(deng),2019d)。綜合方法(fa)(fa)綜合考慮細(xi)胞(bao)(bao)與基(ji)(ji)(ji)因(yin)之(zhi)間的(de)(de)(de)(de)(de)聯(lian)系(xi):CMF-Impute 和 netNMF-sc 是最早有(you)效利用(yong)細(xi)胞(bao)(bao)與基(ji)(ji)(ji)因(yin)之(zhi)間的(de)(de)(de)(de)(de)關(guan)聯(lian)進行插(cha)(cha)(cha)(cha)補的(de)(de)(de)(de)(de)方法(fa)(fa)(Elyanow 等(deng)(deng)(deng)(deng)(deng),2020;Xu 等(deng)(deng)(deng)(deng)(deng),2020a)。scIGANs 通過特定(ding)(ding)的(de)(de)(de)(de)(de) GAN 模(mo)型處理(li)基(ji)(ji)(ji)因(yin)表(biao)達(da)矩陣,利用(yong)生成的(de)(de)(de)(de)(de)細(xi)胞(bao)(bao)訓(xun)練 GANs 模(mo)型來插(cha)(cha)(cha)(cha)補 dropout(Xu 等(deng)(deng)(deng)(deng)(deng),2020b)。近年來,新的(de)(de)(de)(de)(de)方法(fa)(fa)還(huan)在不(bu)斷(duan)被提出(chu),以(yi)更好(hao)(hao)地解決(jue) dropout 之(zhi)外的(de)(de)(de)(de)(de)技術(shu)噪聲對數(shu)據(ju)的(de)(de)(de)(de)(de)影響,并(bing)實(shi)現(xian)對生物零(ling)值(zhi)的(de)(de)(de)(de)(de)更好(hao)(hao)的(de)(de)(de)(de)(de)區分。AutoClass(Li 等(deng)(deng)(deng)(deng)(deng),2022c)實(shi)現(xian)了無監督處理(li),而 ALRA 方法(fa)(fa)主(zhu)要針對生物零(ling)值(zhi)(Linderman 等(deng)(deng)(deng)(deng)(deng),2022)。scMOO 進行了根本性的(de)(de)(de)(de)(de)改(gai)變(bian),利用(yong)數(shu)據(ju)的(de)(de)(de)(de)(de)潛在結(jie)構來學習細(xi)胞(bao)(bao)相似(si)性垂直結(jie)構和總低秩結(jie)構中的(de)(de)(de)(de)(de)深度(du)關(guan)聯(lian),從(cong)而取得了比單(dan)一基(ji)(ji)(ji)因(yin)表(biao)達(da)矩陣作為輸入(ru)更好(hao)(hao)的(de)(de)(de)(de)(de)插(cha)(cha)(cha)(cha)值(zhi)效果,但(dan)對內存的(de)(de)(de)(de)(de)要求也更高(Jin 等(deng)(deng)(deng)(deng)(deng),2022a)。sc-PHENIX 利用(yong) PCA-UMAP 初始(shi)化方法(fa)(fa),實(shi)現(xian)了基(ji)(ji)(ji)因(yin)表(biao)達(da)的(de)(de)(de)(de)(de)非線性插(cha)(cha)(cha)(cha)值(zhi)(Padron-Manrique 等(deng)(deng)(deng)(deng)(deng),2022),目前哪(na)種插(cha)(cha)(cha)(cha)值(zhi)能(neng)取得最佳效果尚無明確定(ding)(ding)論。由于數(shu)據(ju)集(ji)(ji)本身(shen)的(de)(de)(de)(de)(de)原因(yin),下(xia)游分析的(de)(de)(de)(de)(de)目的(de)(de)(de)(de)(de)會有(you)不(bu)同的(de)(de)(de)(de)(de)選擇,但(dan)毫(hao)無疑問最好(hao)(hao)的(de)(de)(de)(de)(de)填補方法(fa)(fa)將能(neng)夠(gou)以(yi)較(jiao)低的(de)(de)(de)(de)(de)計(ji)算要求有(you)效區分技術(shu)噪聲零(ling)值(zhi)和生物零(ling)值(zhi)(Jiang 等(deng)(deng)(deng)(deng)(deng),2022a;Wen 等(deng)(deng)(deng)(deng)(deng),2022)。
4、特征選擇
為(wei)了降低數(shu)據維數(shu)以提升計算分析效率、減少技術噪聲干擾和模型過擬(ni)合(he)的風險,我們常常采取特征選(xuan)擇策略,選(xuan)取不(bu)同細胞(bao)中差異較大(da)的基因,而非整個數(shu)據集基因進(jin)行聚類等(deng)后(hou)續分析(Brennecke 等(deng),2013;Jackson and Vogel,2022;Svensson 等(deng),2017)。
在 bulk RNA-seq 分析中,尋找差異基因的方(fang)(fang)法(fa)通常包括基于倍數(shu)變化(FC)的方(fang)(fang)法(fa)、基于統(tong)計(ji)檢驗的方(fang)(fang)法(fa)和(he) FC- 統(tong)計(ji)檢驗方(fang)(fang)法(fa),顯然后者的篩選(xuan)結果和(he)可信度最好(Chung and Storey,2015)。
早期(qi)的(de)(de)(de)(de)單細胞(bao)特(te)征(zheng)(zheng)(zheng)(zheng)選擇(ze)方(fang)(fang)(fang)法(fa)(fa)缺(que)乏平均表達量與方(fang)(fang)(fang)差(cha)(cha)之間(jian)的(de)(de)(de)(de)校正,導致結果中高(gao)表達基(ji)因(yin)的(de)(de)(de)(de)比例過(guo)高(gao)(Brennecke 等(deng)(deng)(deng)(deng),2013)。EDGE 采用大量弱學(xue)習器的(de)(de)(de)(de)集(ji)成學(xue)習方(fang)(fang)(fang)法(fa)(fa)來(lai)學(xue)習細胞(bao)間(jian)相似性(xing)概率,提(ti)(ti)取(qu)基(ji)于(yu)信(xin)息熵的(de)(de)(de)(de)顯著(zhu)貢(gong)獻作為高(gao)可變基(ji)因(yin)(Sun 等(deng)(deng)(deng)(deng),2020c)。同樣,SAIC 基(ji)于(yu)迭(die)代聚類最(zui)終輸(shu)出實現了最(zui)優細胞(bao)簇分(fen)離(Yang 等(deng)(deng)(deng)(deng),2017)。近期(qi),一些(xie)新的(de)(de)(de)(de)特(te)征(zheng)(zheng)(zheng)(zheng)提(ti)(ti)取(qu)策略(lve)被提(ti)(ti)出并證明(ming)了其(qi)穩定(ding)性(xing)和(he)有(you)效性(xing),但它們之間(jian)的(de)(de)(de)(de)性(xing)能權威驗證尚缺(que)乏:包括基(ji)于(yu)基(ji)因(yin)表達分(fen)布矩陣的(de)(de)(de)(de)方(fang)(fang)(fang)法(fa)(fa) SCMER(Liang 等(deng)(deng)(deng)(deng),2021b)、RgCop(Lall 等(deng)(deng)(deng)(deng),2021)、scPNMF(Song 等(deng)(deng)(deng)(deng),2021a)、SIEVE(Zhang 等(deng)(deng)(deng)(deng),2021e);基(ji)于(yu)熵的(de)(de)(de)(de)方(fang)(fang)(fang)法(fa)(fa) IEntropy(Li 等(deng)(deng)(deng)(deng),2022g)、infohet(Casey 等(deng)(deng)(deng)(deng),2023);綜合(he)考慮聚類的(de)(de)(de)(de)方(fang)(fang)(fang)法(fa)(fa)有(you) Triku(Ascensión 等(deng)(deng)(deng)(deng),2022)、FEAST(Su 等(deng)(deng)(deng)(deng),2021)等(deng)(deng)(deng)(deng)。由于(yu)上(shang)述方(fang)(fang)(fang)法(fa)(fa)絕大多數(shu)忽略(lve)了整體(ti)的(de)(de)(de)(de)依賴于(yu)基(ji)因(yin)表達的(de)(de)(de)(de)特(te)征(zheng)(zheng)(zheng)(zheng),因(yin)此(ci)提(ti)(ti)出了綜合(he)的(de)(de)(de)(de)方(fang)(fang)(fang)法(fa)(fa),如 Triku 使用 k 最(zui)近鄰圖的(de)(de)(de)(de)方(fang)(fang)(fang)法(fa)(fa)對基(ji)因(yin)表達模(mo)式進行綜合(he)探索和(he)分(fen)類,實現無偏差(cha)(cha)地篩選出更(geng)有(you)生物學(xue)意義的(de)(de)(de)(de)特(te)征(zheng)(zheng)(zheng)(zheng)基(ji)因(yin);FEAST 在共識聚類上(shang)通過(guo) f 檢(jian)驗對特(te)征(zheng)(zheng)(zheng)(zheng)進行排序,并基(ji)于(yu)特(te)征(zheng)(zheng)(zheng)(zheng)評估算法(fa)(fa)提(ti)(ti)取(qu) HVG(Wang 等(deng)(deng)(deng)(deng),2022c)。
其他一些方(fang)法使用高(gao)(gao)可變基(ji)(ji)因以外的(de)特(te)征來(lai)表(biao)示數(shu)據集,例如 scVEGs 和 scSensitiveGeneDefine 方(fang)法,使用高(gao)(gao)變異系數(shu)(CV)作為特(te)征提取;BASiCS 方(fang)法利用 spike-in 基(ji)(ji)因的(de)信息(Chen 等,2016b;Chen 等,2021b)。總體來(lai)看,基(ji)(ji)于(yu)準(zhun)確性(xing)、生(sheng)物學可解釋性(xing)等角度,當前特(te)征選擇的(de)主要目標是有效(xiao)提取 HVG,以便對高(gao)(gao)維轉錄組數(shu)據進行有效(xiao)的(de)下游(you)分(fen)析。
5、降維
由于單細胞轉錄(lu)組(zu)通常包(bao)含數萬(wan)個甚至更多的(de)基因,不利于直(zhi)接(jie)提(ti)取有(you)效信息,在(zai)實際分(fen)析過程(cheng)中(zhong),通常需要對原(yuan)始(shi)測(ce)序(xu)數據進(jin)行降(jiang)維(wei)(wei)(wei)(wei)。除了(le)利用前文提(ti)到的(de)特(te)征選擇方法處理高維(wei)(wei)(wei)(wei)單細胞轉錄(lu)組(zu)測(ce)序(xu)數據外,降(jiang)維(wei)(wei)(wei)(wei)也是一種有(you)效的(de)方法,根據降(jiang)維(wei)(wei)(wei)(wei)策略可分(fen)為(wei)線性降(jiang)維(wei)(wei)(wei)(wei)(基于潛在(zai)狄利克雷分(fen)配(LDA)的(de)方法、基于 PCA 的(de)方法)和非線性降(jiang)維(wei)(wei)(wei)(wei)(基于 t -SNE 的(de)方法、基于 UMAP 的(de)方法)(Andrews and Hemberg,2018;Becht 等(deng),2019;Laurens and Hinton,2008;Peres-Neto 等(deng),2005)。
在線性降維(wei)中,LDA 和(he)(he) PCA 是兩種(zhong)廣泛(fan)使(shi)用(yong)(yong)的(de)(de)算(suan)法(fa)(fa),LDA 從分(fen)(fen)(fen)類(lei)最大(da)(da)的(de)(de)角度區(qu)分(fen)(fen)(fen)特征(zheng),而(er) PCA 則從方差(cha)最大(da)(da)的(de)(de)角度正(zheng)交(jiao)提(ti)取主成分(fen)(fen)(fen)。盡管有 JPCDA、LDA-PLS 等(deng)改進(jin)算(suan)法(fa)(fa),但是 LDA 模型在單(dan)(dan)細(xi)胞轉錄組數(shu)據(ju)中的(de)(de)降維(wei)效果仍(reng)然不是最優的(de)(de)(Tang 等(deng),2014 ; Zhao 等(deng),2020)。PCA 是另(ling)一(yi)種(zhong)線性變換,Seurat 通(tong)常根(gen)據(ju)標準差(cha) -PC 圖的(de)(de)拐點(dian)或(huo)者(zhe) PC 的(de)(de)比例檢(jian)驗結(jie)果 P 值(ScoreJackStraw 函(han)數(shu))來確定 PC 數(shu)量的(de)(de)多少(shao)。其他基(ji)于(yu) PCA 的(de)(de)降維(wei)方法(fa)(fa)的(de)(de)變體包(bao)括 pcaReduce(?urauskien ?和(he)(he) Yau,2016),GLM-PCA(Townes 等(deng),2019),RPCA(Gogolewski 等(deng),2019),tRPCA(Candès 等(deng),2011),scPCA(Boileau 等(deng),2020),PCAone(Li 等(deng),2022l)。GLM-PCA 將傳統 PCA 分(fen)(fen)(fen)析(xi)擴展到非正(zheng)態分(fen)(fen)(fen)布,通(tong)過引入(ru)指(zhi)數(shu)家族似然策略直接(jie)處理(li)原始矩(ju)陣(zhen),使(shi) PCA 擺脫(tuo)正(zheng)態化限制,然后使(shi)用(yong)(yong)偏差(cha)對基(ji)因實(shi)現進(jin)行排序和(he)(he)提(ti)取(Collins 等(deng),2002)。ScPCA 使(shi)用(yong)(yong)對比 PCA 和(he)(he)稀疏(shu) PCA 分(fen)(fen)(fen)別去除技術噪音和(he)(he)數(shu)據(ju),進(jin)一(yi)步增加(jia)了(le) PCA 的(de)(de)穩定性(Abid 等(deng),2018 ; Zou 等(deng),2006)。由于(yu)大(da)(da)多數(shu) scRNA-seq 數(shu)據(ju)集難以通(tong)過簡(jian)單(dan)(dan)的(de)(de)線性降維(wei)進(jin)行有效表示,解(jie)決這(zhe)一(yi)問題的(de)(de)第一(yi)個策略是基(ji)于(yu)快速 PCA 分(fen)(fen)(fen)析(xi)方法(fa)(fa)。PCAone 提(ti)出了(le)一(yi)種(zhong)新的(de)(de)快速隨機奇異值分(fen)(fen)(fen)解(jie)(RSVD)策略,在 35 分(fen)(fen)(fen)鐘內完成 130 萬小鼠腦細(xi)胞單(dan)(dan)細(xi)胞數(shu)據(ju)的(de)(de)分(fen)(fen)(fen)析(xi)(Li 等(deng),2022l)。
非線性降(jiang)維(wei)是(shi)另一種解決方(fang)案,如非參(can)(can)數(shu)(shu)降(jiang)維(wei)方(fang)法 t -SNE 和 UMAP,都需要預先設置(zhi)聚類的(de)(de)(de)超(chao)參(can)(can)數(shu)(shu);而在(zai)(zai)分類效果上,前者(zhe)傾向于(yu)(yu)離散數(shu)(shu)據(ju)中細胞的(de)(de)(de)形成。在(zai)(zai)合(he)理使用(yong)參(can)(can)數(shu)(shu)設定的(de)(de)(de)情況下,UMAP 與 t -SNE 并無明顯差異,即在(zai)(zai)使用(yong)相同的(de)(de)(de)信息(xi)初始(shi)化方(fang)法后,二者(zhe)可(ke)以(yi)(yi)在(zai)(zai)保留(liu)數(shu)(shu)據(ju)集全局(ju)結(jie)構的(de)(de)(de)同時(shi),產生(sheng)近似的(de)(de)(de)分析(xi)效率(Do and Canzar,2021;Kobak and Linderman,2021)。針對(dui)(dui) t -SNE 的(de)(de)(de)改(gai)進(jin)方(fang)法包括 net-SNE、qSNE、FItSNE、聯合(he) t -SNE(Cho 等(deng),2018a;Linderman 等(deng),2019;Wang 等(deng),2022b),而 UMAP 的(de)(de)(de)改(gai)進(jin)主要來自于(yu)(yu) Leland McInnes 課題(ti)組(zu)對(dui)(dui)該方(fang)法的(de)(de)(de)自我改(gai)進(jin)(McInnes 等(deng),2018)。為了(le)更好(hao)地可(ke)視化 t -SNE 或 UMAP 的(de)(de)(de)降(jiang)維(wei)結(jie)果,Hyunghoon Cho 提出了(le)基(ji)于(yu)(yu)局(ju)部半徑(jing)依賴優(you)化的(de)(de)(de)轉錄組(zu)變異信息(xi) den-SNE/densMAP 方(fang)法,以(yi)(yi)迭(die)代優(you)化傳統 t -SNE/UMAP 的(de)(de)(de)功能;Stefan Canzar 提出了(le) j -SNE/jUMAP 來改(gai)善多模(mo)態組(zu)學(xue)數(shu)(shu)據(ju)聯合(he)可(ke)視化結(jie)果,減少可(ke)視化的(de)(de)(de)誤導性(Do and Canzar,2021;Narayan 等(deng),2021)。
6、聚類
在單細胞轉(zhuan)錄(lu)組數據分析(xi)中(zhong),通過聚類(lei)(lei)將細胞劃分為亞(ya)群,從(cong)而能夠表征多(duo)細胞生物中(zhong)不同(tong)細胞類(lei)(lei)型,這有助于我們(men)從(cong)細胞異質性的角度準(zhun)確地分析(xi)不同(tong)的組織或發育過程(cheng)。聚類(lei)(lei)的實際效果會受到(dao)數據預(yu)處理步(bu)驟(zou)的影響,例如浴效應歸(gui)一化、歸(gui)納、降維等。
在(zai)特征基(ji)(ji)(ji)因選(xuan)(xuan)(xuan)擇(ze)(ze)(ze)和(he)降維(wei)之后(hou),絕大多(duo)數(shu)(shu)(shu)(shu)(shu)單細(xi)(xi)胞(bao)是基(ji)(ji)(ji)于(yu)(yu)(yu)(yu)距(ju)(ju)離(li)進(jin)行(xing)(xing)(xing)(xing)聚(ju)(ju)(ju)(ju)(ju)類(lei)(lei)(lei)(lei)(lei)(lei)(lei)的(de)(de)(de)(de)(de)(de)。K 均值(zhi)聚(ju)(ju)(ju)(ju)(ju)類(lei)(lei)(lei)(lei)(lei)(lei)(lei)算法(fa)的(de)(de)(de)(de)(de)(de)概念被用(yong)(yong)(yong)于(yu)(yu)(yu)(yu) SCUBA、SC3 和(he) RaceID 等(deng)(deng)(deng)(deng)應用(yong)(yong)(yong)(Grün 等(deng)(deng)(deng)(deng),2015;Kiselev 等(deng)(deng)(deng)(deng),2017;Macqueen, 1967;Marco 等(deng)(deng)(deng)(deng),2014)。在(zai)參(can)數(shu)(shu)(shu)(shu)(shu)選(xuan)(xuan)(xuan)擇(ze)(ze)(ze)改(gai)進(jin)方面(mian),SAIC 通過 Davies-Bouldin 指(zhi)數(shu)(shu)(shu)(shu)(shu)迭代優化多(duo)個(ge)初始(shi)中心 K 和(he) P 值(zhi),以獲得(de)最(zui)優解;LAK 將參(can)數(shu)(shu)(shu)(shu)(shu)選(xuan)(xuan)(xuan)擇(ze)(ze)(ze)算法(fa)應用(yong)(yong)(yong)于(yu)(yu)(yu)(yu)數(shu)(shu)(shu)(shu)(shu)據(ju)集,實現參(can)數(shu)(shu)(shu)(shu)(shu)的(de)(de)(de)(de)(de)(de)自(zi)動選(xuan)(xuan)(xuan)擇(ze)(ze)(ze)(Davies and Bouldin, 1979;Hua 等(deng)(deng)(deng)(deng),2020;Yang 等(deng)(deng)(deng)(deng),2017)。在(zai)超高維(wei)數(shu)(shu)(shu)(shu)(shu)據(ju)的(de)(de)(de)(de)(de)(de)操作中,LAK 添(tian)加 Lasso 懲(cheng)罰項進(jin)行(xing)(xing)(xing)(xing)標準(zhun)化,mbkmeans 使(shi)(shi)用(yong)(yong)(yong)小(xiao)批量 k 均值(zhi)實現百萬(wan)細(xi)(xi)胞(bao)級別(bie)的(de)(de)(de)(de)(de)(de)快速聚(ju)(ju)(ju)(ju)(ju)類(lei)(lei)(lei)(lei)(lei)(lei)(lei)(Hicks 等(deng)(deng)(deng)(deng),2021)。SMSC 應用(yong)(yong)(yong)譜(pu)聚(ju)(ju)(ju)(ju)(ju)類(lei)(lei)(lei)(lei)(lei)(lei)(lei)方法(fa)來(lai)(lai)提(ti)(ti)(ti)高聚(ju)(ju)(ju)(ju)(ju)類(lei)(lei)(lei)(lei)(lei)(lei)(lei)性(xing)能,但對(dui)(dui)(dui)于(yu)(yu)(yu)(yu)超高維(wei)數(shu)(shu)(shu)(shu)(shu)據(ju)會(hui)損(sun)失一(yi)定的(de)(de)(de)(de)(de)(de)準(zhun)確性(xing)(Qi 等(deng)(deng)(deng)(deng),2021)。另(ling)一(yi)大類(lei)(lei)(lei)(lei)(lei)(lei)(lei)廣泛(fan)使(shi)(shi)用(yong)(yong)(yong)的(de)(de)(de)(de)(de)(de)距(ju)(ju)離(li)聚(ju)(ju)(ju)(ju)(ju)類(lei)(lei)(lei)(lei)(lei)(lei)(lei)方法(fa)依賴于(yu)(yu)(yu)(yu)共(gong)享最(zui)近鄰圖結(jie)構(gou)和(he)圖聚(ju)(ju)(ju)(ju)(ju)類(lei)(lei)(lei)(lei)(lei)(lei)(lei),其中使(shi)(shi)用(yong)(yong)(yong)最(zui)廣泛(fan)的(de)(de)(de)(de)(de)(de)是 Louvain 或 Leiden(Blondel 等(deng)(deng)(deng)(deng),2008;Xu and Su, 2015)。稀有細(xi)(xi)胞(bao)的(de)(de)(de)(de)(de)(de)識(shi)別(bie)需要結(jie)合特定方法(fa)進(jin)行(xing)(xing)(xing)(xing)改(gai)進(jin),例(li)如 dropClust 使(shi)(shi)用(yong)(yong)(yong)局部敏(min)感哈希(xi)工作流篩選(xuan)(xuan)(xuan)最(zui)近鄰,然后(hou)是 Louvain 聚(ju)(ju)(ju)(ju)(ju)類(lei)(lei)(lei)(lei)(lei)(lei)(lei),它使(shi)(shi)用(yong)(yong)(yong)指(zhi)數(shu)(shu)(shu)(shu)(shu)衰減函數(shu)(shu)(shu)(shu)(shu)來(lai)(lai)保留更多(duo)稀有細(xi)(xi)胞(bao)的(de)(de)(de)(de)(de)(de)轉(zhuan)錄(lu)組特征(Sinha 等(deng)(deng)(deng)(deng),2018)。其他基(ji)(ji)(ji)于(yu)(yu)(yu)(yu)距(ju)(ju)離(li)的(de)(de)(de)(de)(de)(de)聚(ju)(ju)(ju)(ju)(ju)類(lei)(lei)(lei)(lei)(lei)(lei)(lei)方法(fa)使(shi)(shi)用(yong)(yong)(yong)不同的(de)(de)(de)(de)(de)(de)算法(fa)核(he)心:SIMLR 使(shi)(shi)用(yong)(yong)(yong)高斯核(he)學(xue)(xue)習模型為數(shu)(shu)(shu)(shu)(shu)據(ju)集中潛在(zai)的(de)(de)(de)(de)(de)(de) C 細(xi)(xi)胞(bao)群體(ti)構(gou)建核(he)矩陣,而 Conos 提(ti)(ti)(ti)出聯合相(xiang)(xiang)互最(zui)近鄰(mNN)圖聚(ju)(ju)(ju)(ju)(ju)類(lei)(lei)(lei)(lei)(lei)(lei)(lei)來(lai)(lai)實現對(dui)(dui)(dui)多(duo)個(ge)不同單細(xi)(xi)胞(bao)轉(zhuan)錄(lu)組樣本(ben)的(de)(de)(de)(de)(de)(de)整(zheng)合分(fen)(fen)析(Barkas 等(deng)(deng)(deng)(deng),2019 ; Wang 等(deng)(deng)(deng)(deng),2017a)。基(ji)(ji)(ji)于(yu)(yu)(yu)(yu)密度(du)的(de)(de)(de)(de)(de)(de)聚(ju)(ju)(ju)(ju)(ju)類(lei)(lei)(lei)(lei)(lei)(lei)(lei)利用(yong)(yong)(yong)樣本(ben)分(fen)(fen)布的(de)(de)(de)(de)(de)(de)接(jie)(jie)近程度(du)進(jin)行(xing)(xing)(xing)(xing)聚(ju)(ju)(ju)(ju)(ju)類(lei)(lei)(lei)(lei)(lei)(lei)(lei),DBSCAN 是最(zui)經典的(de)(de)(de)(de)(de)(de)算法(fa)(Ester 等(deng)(deng)(deng)(deng),1996 ; Fukunaga and Hostetler, 1975)。對(dui)(dui)(dui)于(yu)(yu)(yu)(yu)單細(xi)(xi)胞(bao)測序,densityCut 和(he) FlowGrid 就是基(ji)(ji)(ji)于(yu)(yu)(yu)(yu)此(ci)原理設(she)計的(de)(de)(de)(de)(de)(de)(Ding 等(deng)(deng)(deng)(deng),2016 ; Fang and Ho, 2021)。層(ceng)次聚(ju)(ju)(ju)(ju)(ju)類(lei)(lei)(lei)(lei)(lei)(lei)(lei)是一(yi)種(zhong)(zhong)自(zi)下而上(shang)的(de)(de)(de)(de)(de)(de)聚(ju)(ju)(ju)(ju)(ju)類(lei)(lei)(lei)(lei)(lei)(lei)(lei)方法(fa),通過無監督學(xue)(xue)習,不斷重復計算細(xi)(xi)胞(bao)與細(xi)(xi)胞(bao)的(de)(de)(de)(de)(de)(de)相(xiang)(xiang)似(si)性(xing)進(jin)行(xing)(xing)(xing)(xing)分(fen)(fen)類(lei)(lei)(lei)(lei)(lei)(lei)(lei),直至完成預設(she)的(de)(de)(de)(de)(de)(de)聚(ju)(ju)(ju)(ju)(ju)類(lei)(lei)(lei)(lei)(lei)(lei)(lei)數(shu)(shu)(shu)(shu)(shu)(Guo 等(deng)(deng)(deng)(deng),2015)。隨后(hou),RCA 聚(ju)(ju)(ju)(ju)(ju)類(lei)(lei)(lei)(lei)(lei)(lei)(lei)采用(yong)(yong)(yong)常(chang)規的(de)(de)(de)(de)(de)(de)層(ceng)次聚(ju)(ju)(ju)(ju)(ju)類(lei)(lei)(lei)(lei)(lei)(lei)(lei)方法(fa),對(dui)(dui)(dui)映射到全局參(can)考面(mian)板(ban)的(de)(de)(de)(de)(de)(de)細(xi)(xi)胞(bao)進(jin)行(xing)(xing)(xing)(xing)聚(ju)(ju)(ju)(ju)(ju)類(lei)(lei)(lei)(lei)(lei)(lei)(lei);HGC 在(zai) SNN 圖上(shang)構(gou)建層(ceng)次樹(Li 等(deng)(deng)(deng)(deng),2017;Zou 等(deng)(deng)(deng)(deng),2021)。為了解決常(chang)規層(ceng)次聚(ju)(ju)(ju)(ju)(ju)類(lei)(lei)(lei)(lei)(lei)(lei)(lei)方法(fa)難以對(dui)(dui)(dui)某一(yi)組細(xi)(xi)胞(bao)進(jin)行(xing)(xing)(xing)(xing)聚(ju)(ju)(ju)(ju)(ju)類(lei)(lei)(lei)(lei)(lei)(lei)(lei)、只允許同一(yi)組特征基(ji)(ji)(ji)因進(jin)行(xing)(xing)(xing)(xing)聚(ju)(ju)(ju)(ju)(ju)類(lei)(lei)(lei)(lei)(lei)(lei)(lei)的(de)(de)(de)(de)(de)(de)缺陷,K2Taxonomer 采用(yong)(yong)(yong)約束 K 均值(zhi)算法(fa)擴展到樣本(ben)組,基(ji)(ji)(ji)于(yu)(yu)(yu)(yu)多(duo)個(ge)基(ji)(ji)(ji)因集遞歸進(jin)行(xing)(xing)(xing)(xing)積分(fen)(fen)計算,以捕獲各(ge)種(zhong)(zhong)分(fen)(fen)辨率下的(de)(de)(de)(de)(de)(de)亞組(“類(lei)(lei)(lei)(lei)(lei)(lei)(lei)似(si)分(fen)(fen)類(lei)(lei)(lei)(lei)(lei)(lei)(lei)學(xue)(xue)的(de)(de)(de)(de)(de)(de)細(xi)(xi)胞(bao)”)(Reed and Monti, 2021)。Mrtree 將層(ceng)次聚(ju)(ju)(ju)(ju)(ju)類(lei)(lei)(lei)(lei)(lei)(lei)(lei)的(de)(de)(de)(de)(de)(de)策略應用(yong)(yong)(yong)于(yu)(yu)(yu)(yu)平面(mian)簇的(de)(de)(de)(de)(de)(de)多(duo)個(ge)劃分(fen)(fen),并(bing)構(gou)造多(duo)分(fen)(fen)辨率協調(diao)樹用(yong)(yong)(yong)于(yu)(yu)(yu)(yu)細(xi)(xi)胞(bao)聚(ju)(ju)(ju)(ju)(ju)類(lei)(lei)(lei)(lei)(lei)(lei)(lei)(Peng 等(deng)(deng)(deng)(deng),2021a)。最(zui)近,Zelig 和(he) Kaplan(2020)提(ti)(ti)(ti)出了一(yi)種(zhong)(zhong) KMD 聚(ju)(ju)(ju)(ju)(ju)類(lei)(lei)(lei)(lei)(lei)(lei)(lei)方法(fa),通過平均鏈接(jie)(jie)層(ceng)次聚(ju)(ju)(ju)(ju)(ju)類(lei)(lei)(lei)(lei)(lei)(lei)(lei)模型在(zai)聚(ju)(ju)(ju)(ju)(ju)類(lei)(lei)(lei)(lei)(lei)(lei)(lei)時消除了超參(can)數(shu)(shu)(shu)(shu)(shu) K,大大減少了主觀(guan)性(xing)帶來(lai)(lai)的(de)(de)(de)(de)(de)(de)判斷誤(wu)差。
深度學習(xi)(xi)(xi)聚(ju)(ju)(ju)類(lei)方(fang)(fang)(fang)法是將(jiang)機器學習(xi)(xi)(xi)方(fang)(fang)(fang)法與上述單(dan)細(xi)(xi)胞(bao)(bao)轉錄組聚(ju)(ju)(ju)類(lei)策略相結合(he),可(ke)以(yi)(yi)以(yi)(yi)無監(jian)(jian)督(du)(du)、監(jian)(jian)督(du)(du)或(huo)半監(jian)(jian)督(du)(du)的(de)形(xing)式(shi)實現更高效的(de)聚(ju)(ju)(ju)類(lei)結果。這些方(fang)(fang)(fang)法傾向于(yu)學習(xi)(xi)(xi)一種(zhong)非線性(xing)變(bian)換,通(tong)過將(jiang)原始高維(wei)數(shu)據(ju)(ju)映射到(dao)(dao)較小的(de)潛在空間(jian)中來獲得(de)最佳的(de)低維(wei)表示。總體而言,這種(zhong)方(fang)(fang)(fang)法避(bi)免了傳統聚(ju)(ju)(ju)類(lei)方(fang)(fang)(fang)法對聚(ju)(ju)(ju)類(lei)前數(shu)據(ju)(ju)處理方(fang)(fang)(fang)法選擇的(de)影(ying)響。無監(jian)(jian)督(du)(du)聚(ju)(ju)(ju)類(lei)方(fang)(fang)(fang)法包括 ADClust、DESC、SAUCIE、VAE-SNE 等(deng)(deng)(deng)(deng),通(tong)常不需要預設聚(ju)(ju)(ju)類(lei)個數(shu)等(deng)(deng)(deng)(deng)參數(shu),以(yi)(yi)自主(zhu)學習(xi)(xi)(xi)的(de)方(fang)(fang)(fang)式(shi)完成對數(shu)據(ju)(ju)集的(de)分(fen)析(xi)處理(Amodio 等(deng)(deng)(deng)(deng),2019;Graving and Couzin,2020;Li 等(deng)(deng)(deng)(deng),2020c;Zeng 等(deng)(deng)(deng)(deng),2022c)。雖然無監(jian)(jian)督(du)(du)聚(ju)(ju)(ju)類(lei)方(fang)(fang)(fang)法避(bi)免了手動輸入聚(ju)(ju)(ju)類(lei)個數(shu)等(deng)(deng)(deng)(deng)參數(shu),可(ke)以(yi)(yi)延(yan)伸到(dao)(dao)超高維(wei)細(xi)(xi)胞(bao)(bao)聚(ju)(ju)(ju)類(lei),但有時利(li)用(yong)高質(zhi)量標注(zhu)數(shu)據(ju)(ju)集或(huo)其(qi)他先(xian)驗知識輔助約束進行監(jian)(jian)督(du)(du)或(huo)半監(jian)(jian)督(du)(du)聚(ju)(ju)(ju)類(lei),可(ke)以(yi)(yi)實現更為準確(que)的(de)細(xi)(xi)胞(bao)(bao)類(lei)型分(fen)類(lei),提高聚(ju)(ju)(ju)類(lei)性(xing)能(Bai 等(deng)(deng)(deng)(deng),2021)。基(ji)于(yu)遷移學習(xi)(xi)(xi)的(de) ItClust、基(ji)于(yu)互(hu)監(jian)(jian)督(du)(du) ZINB 自編碼器和圖神經網絡(GNN)的(de) scDSC、基(ji)于(yu)軟 K 均(jun)值(zhi)卷積自編碼器的(de) ScCAE、基(ji)于(yu) Cramer-World 距離最大均(jun)值(zhi)懲(cheng)罰高斯混合(he)自編碼器的(de) SeGMA、基(ji)于(yu)時間(jian)序列(lie)聚(ju)(ju)(ju)類(lei)網絡 STCN 都是廣泛(fan)使用(yong)的(de)監(jian)(jian)督(du)(du)聚(ju)(ju)(ju)類(lei)(Gan 等(deng)(deng)(deng)(deng),2022 ; Hu 等(deng)(deng)(deng)(deng),2022a ; Hu 等(deng)(deng)(deng)(deng),2020a ; Ma 等(deng)(deng)(deng)(deng),2021b ; Smieja 等(deng)(deng)(deng)(deng),2021)。此外(wai),Zhang 團隊(Yang 等(deng)(deng)(deng)(deng),2023b)利(li)用(yong)分(fen)層(ceng) GAN 設計了另一種(zhong)廣泛(fan)使用(yong)的(de)深度學習(xi)(xi)(xi)方(fang)(fang)(fang)法 IMDGC,用(yong)于(yu)單(dan)細(xi)(xi)胞(bao)(bao)轉錄組數(shu)據(ju)(ju)分(fen)析(xi),以(yi)(yi)生(sheng)成的(de)方(fang)(fang)(fang)式(shi)構建細(xi)(xi)胞(bao)(bao)嵌入簇。
針對(dui)(dui)(dui)聚(ju)(ju)(ju)類(lei)(lei)(lei)中(zhong)的(de)(de)(de)(de)(de)特殊情況,設計了(le)(le)有(you)針對(dui)(dui)(dui)性(xing)的(de)(de)(de)(de)(de)聚(ju)(ju)(ju)類(lei)(lei)(lei)方法(fa)(fa)(fa):GiniClust(Jiang 等(deng)(deng),2016)(更(geng)(geng)新(xin)為(wei)(wei) GiniClust 3(Dong and Yuan,2020)、MicroCellClust(Gerniers 等(deng)(deng),2021)用于(yu)稀有(you)細胞亞群聚(ju)(ju)(ju)類(lei)(lei)(lei);EDClust(Wei 等(deng)(deng),2022)、ENCORE(Song 等(deng)(deng),2021b)和(he) MLG(Lu 等(deng)(deng),2021)用于(yu)降噪和(he)消(xiao)除批次效應;ClonoCluster(克隆(long)起源信(xin)(xin)息(xi)(xi))(Richman 等(deng)(deng),2023)、IsoCell(可(ke)變剪接信(xin)(xin)息(xi)(xi))(Liu 等(deng)(deng),2023)使(shi)用附加信(xin)(xin)息(xi)(xi)進(jin)行(xing)(xing)聚(ju)(ju)(ju)類(lei)(lei)(lei)。Wu 和(he) Yang 從(cong)特征選擇(ze)對(dui)(dui)(dui)聚(ju)(ju)(ju)類(lei)(lei)(lei)的(de)(de)(de)(de)(de)影響的(de)(de)(de)(de)(de)角度對(dui)(dui)(dui)聚(ju)(ju)(ju)類(lei)(lei)(lei)方法(fa)(fa)(fa)進(jin)行(xing)(xing)了(le)(le)評估,他們(men)證明更(geng)(geng)具代表性(xing)的(de)(de)(de)(de)(de)特征選擇(ze)會(hui)提(ti)高(gao)細胞聚(ju)(ju)(ju)類(lei)(lei)(lei)的(de)(de)(de)(de)(de)水平,基(ji)(ji)于(yu)“聚(ju)(ju)(ju)類(lei)(lei)(lei)相(xiang)似性(xing)”的(de)(de)(de)(de)(de)方法(fa)(fa)(fa)(我們(men)綜述中(zhong)提(ti)到的(de)(de)(de)(de)(de)大多數(shu)基(ji)(ji)于(yu)距離的(de)(de)(de)(de)(de)聚(ju)(ju)(ju)類(lei)(lei)(lei)方法(fa)(fa)(fa))通常具有(you)廣泛的(de)(de)(de)(de)(de)高(gao)聚(ju)(ju)(ju)類(lei)(lei)(lei)類(lei)(lei)(lei)型(xing)性(xing)能;然而,高(gao)精度和(he)高(gao)運行(xing)(xing)速度需要(yao)根據實(shi)際數(shu)據集(ji)進(jin)行(xing)(xing)有(you)針對(dui)(dui)(dui)性(xing)的(de)(de)(de)(de)(de)選擇(ze)(Su 等(deng)(deng),2021;Yu 等(deng)(deng),2022)。雙(shuang)重浸入(ru) (double dipping) 是一個(ge)(ge)顯著的(de)(de)(de)(de)(de)問題(ti),即在細胞聚(ju)(ju)(ju)類(lei)(lei)(lei)和(he)差異(yi)表達基(ji)(ji)因(yin)中(zhong)使(shi)用相(xiang)同的(de)(de)(de)(de)(de)表達數(shu)據,導(dao)致在細胞聚(ju)(ju)(ju)類(lei)(lei)(lei)不(bu)正(zheng)確時(shi) DE 基(ji)(ji)因(yin)的(de)(de)(de)(de)(de)錯誤發現率 (FDR) 過(guo)高(gao)。例如,如果只存在一個(ge)(ge)特定的(de)(de)(de)(de)(de)細胞聚(ju)(ju)(ju)類(lei)(lei)(lei),則不(bu)應將任何基(ji)(ji)因(yin)視為(wei)(wei)差異(yi)基(ji)(ji)因(yin)。為(wei)(wei)了(le)(le)系統地解決這(zhe)個(ge)(ge)問題(ti),ClusterDE 采用了(le)(le)聚(ju)(ju)(ju)類(lei)(lei)(lei)對(dui)(dui)(dui)比學習策(ce)略進(jin)行(xing)(xing)聚(ju)(ju)(ju)類(lei)(lei)(lei)后 DE 測試。該方法(fa)(fa)(fa)與截斷正(zheng)態分布(bu) (TN) 檢驗和(he) Countsplit 方法(fa)(fa)(fa)相(xiang)比,在不(bu)同閾值(zhi)范圍內具有(you)更(geng)(geng)好的(de)(de)(de)(de)(de) FDR 控(kong)制(zhi) (Song 等(deng)(deng),2023a)。
7、細胞類型注釋
細(xi)(xi)胞(bao)分型(xing)注(zhu)釋是(shi)指利用特定的(de)(de)信息對(dui)單細(xi)(xi)胞(bao)測(ce)序(xu)數(shu)(shu)據集(ji)中(zhong)的(de)(de)細(xi)(xi)胞(bao)或(huo)細(xi)(xi)胞(bao)亞(ya)群進行(xing)注(zhu)釋,作為(wei)后續生物學分析的(de)(de)基(ji)礎。最(zui)常用的(de)(de)策(ce)略是(shi)對(dui)細(xi)(xi)胞(bao)進行(xing)無監(jian)督聚(ju)類,然后根據標記基(ji)因進行(xing)注(zhu)釋,例如 scCATCH、SCSA (Cao 等,2020b;Shao 等,2020a),但它(ta)難以處理復(fu)雜的(de)(de)高維數(shu)(shu)據集(ji) (Franzén 等,2019;Luecken and Theis, 2019;Zhang 等,2019c)。目前(qian)已(yi)經開(kai)發了多種自動細(xi)(xi)胞(bao)分型(xing)方法,大(da)致可(ke)分為(wei)兩類,即依賴(lai)參考(kao)和無參考(kao)的(de)(de)注(zhu)釋方法。
依賴參考信(xin)息的注(zhu)釋(shi)方(fang)法(fa)(fa)(fa)要求用(yong)(yong)戶提(ti)(ti)供預(yu)先(xian)注(zhu)釋(shi)的高(gao)質量單細(xi)(xi)胞(bao)轉錄組數(shu)據(ju)集或來自 PanglaoDB 數(shu)據(ju)庫、ScType 數(shu)據(ju)庫等(deng)(deng)(deng)的先(xian)驗(yan)知識(shi)進行比(bi)對(dui)(Ianevski 等(deng)(deng)(deng),2022)。根據(ju)方(fang)法(fa)(fa)(fa)原理的不同(tong),可分為(wei)基于(yu)(yu)層(ceng)次樹的方(fang)法(fa)(fa)(fa)(CHETAH(de Kanter 等(deng)(deng)(deng),2019)、Garnett(Pliner 等(deng)(deng)(deng),2019)、HieRFIT(Kaymaz 等(deng)(deng)(deng),2021)、scHPL(Michielsen 等(deng)(deng)(deng),2021)、scMRMA(Li 等(deng)(deng)(deng),2022e)、基于(yu)(yu)相似(si)性的方(fang)法(fa)(fa)(fa)(SingleR(Aran 等(deng)(deng)(deng),2019)、scmap(Kiselev 等(deng)(deng)(deng),2018)、deCS(Pei 等(deng)(deng)(deng),2023)、scID(Boufea 等(deng)(deng)(deng),2020)、scMatch(Hou 等(deng)(deng)(deng),2019)、Symphony(Kang 等(deng)(deng)(deng),2021)、基于(yu)(yu)簽名基因的方(fang)法(fa)(fa)(fa)(Cellassign(Zhang 等(deng)(deng)(deng),2021)、基于(yu)(yu)特征基因的方(fang)法(fa)(fa)(fa)(Cellassign(Zhang 等(deng)(deng)(deng),2022)。al., 2019a )、Cell-ID(Cortal 等(deng)(deng)(deng),2021)、scMAGIC(Zhang 等(deng)(deng)(deng),2022g)、SciBet(Li 等(deng)(deng)(deng),2020b)和其他(ta) DL 方(fang)法(fa)(fa)(fa)。作為(wei)早期(qi)方(fang)法(fa)(fa)(fa),ACTINN 是一(yi)種(zhong)使用(yong)(yong) 3 個隱藏層(ceng)神(shen)經(jing)網(wang)絡進行注(zhu)釋(shi)分類的深度學(xue)習方(fang)法(fa)(fa)(fa)(Ma and Pellegrini, 2020)。SCPred 隨后提(ti)(ti)出了一(yi)種(zhong)基于(yu)(yu)嵌入的無偏特征選(xuan)擇的機器學(xue)習概率預(yu)測方(fang)法(fa)(fa)(fa)(Alquicira-Hernandez 等(deng)(deng)(deng),2019)。其他(ta)方(fang)法(fa)(fa)(fa)如(ru) Seurat 在(zai) PCA 空間中投(tou)影查詢細(xi)(xi)胞(bao)并通過(guo)加權投(tou)票分類器訓練(lian)細(xi)(xi)胞(bao)分型(xing)注(zhu)釋(shi);scSorter 采(cai)用(yong)(yong)高(gao)斯混合模型(xing),GraphCS 使用(yong)(yong)虛擬對(dui)抗訓練(lian) (VAT) 損失修改(gai)的 GNN 來擴展到多物種(zhong)、大規模細(xi)(xi)胞(bao)注(zhu)釋(shi)數(shu)據(ju)集(Guo and Li,2021;Zeng 等(deng)(deng)(deng),2022a)。
不依賴參(can)考(kao)(kao)信息的(de)(de)(de)注(zhu)(zhu)(zhu)釋(shi)方法使(shi)用預(yu)(yu)先訓(xun)練的(de)(de)(de)深度學習模型(xing)(xing),可(ke)以直(zhi)接(jie)使(shi)用查(cha)詢(xun)數(shu)據(ju)集作(zuo)為(wei)輸入進(jin)行細(xi)(xi)胞(bao)分類(lei)(lei)。scDeepSort 使(shi)用來自人類(lei)(lei)細(xi)(xi)胞(bao)圖譜(pu) (HCL) 和(he)小(xiao)鼠(shu)(shu)細(xi)(xi)胞(bao)圖譜(pu) (MCA) 數(shu)據(ju)庫的(de)(de)(de)單細(xi)(xi)胞(bao)圖譜(pu)作(zuo)為(wei)預(yu)(yu)訓(xun)練加權(quan) GNN 模型(xing)(xing)的(de)(de)(de)輸入,該模型(xing)(xing)適(shi)用于(yu)人類(lei)(lei)和(he)小(xiao)鼠(shu)(shu)細(xi)(xi)胞(bao)注(zhu)(zhu)(zhu)釋(shi)并(bing)取得良好(hao)的(de)(de)(de)效果(guo)(Han 等(deng)(deng)(deng),2018b;Han 等(deng)(deng)(deng),2020;Shao 等(deng)(deng)(deng),2021b)。類(lei)(lei)似地,Pollock 是一個預(yu)(yu)訓(xun)練的(de)(de)(de)人類(lei)(lei)癌(ai)(ai)癥(zheng)參(can)考(kao)(kao) VAE 模型(xing)(xing),用于(yu)對癌(ai)(ai)癥(zheng)環境(jing)中的(de)(de)(de)多模態細(xi)(xi)胞(bao)進(jin)行分類(lei)(lei)(Storrs 等(deng)(deng)(deng),2022)。雖然使(shi)用起(qi)來更(geng)方便,但對于(yu)差異顯著(zhu)的(de)(de)(de)查(cha)詢(xun)數(shu)據(ju)集難以達到(dao)更(geng)好(hao)的(de)(de)(de)細(xi)(xi)胞(bao)注(zhu)(zhu)(zhu)釋(shi)效果(guo),而且由于(yu)準確性(xing)和(he)預(yu)(yu)訓(xun)練參(can)考(kao)(kao)數(shu)據(ju)集的(de)(de)(de)數(shu)量也難以擴展應用。還有(you)一些其(qi)他(ta)用于(yu)有(you)針對性(xing)領域研究(jiu)的(de)(de)(de)細(xi)(xi)胞(bao)注(zhu)(zhu)(zhu)釋(shi)工具(ju),例如(ru),用于(yu)人類(lei)(lei)腎細(xi)(xi)胞(bao)注(zhu)(zhu)(zhu)釋(shi)的(de)(de)(de) DevKidCC(Wilson 等(deng)(deng)(deng),2022),用于(yu)識別癌(ai)(ai)癥(zheng)和(he)正常細(xi)(xi)胞(bao)的(de)(de)(de) ikarus(Dohmen 等(deng)(deng)(deng),2021)。總體而言,無參(can)考(kao)(kao)注(zhu)(zhu)(zhu)釋(shi)方法的(de)(de)(de)性(xing)能受到(dao)預(yu)(yu)訓(xun)練參(can)考(kao)(kao)數(shu)據(ju)集的(de)(de)(de)覆蓋率和(he)準確性(xing)的(de)(de)(de)制(zhi)約。
目前,改進(jin)(jin)細(xi)(xi)胞(bao)注(zhu)(zhu)(zhu)釋工具以在(zai)大平臺(tai)和多細(xi)(xi)胞(bao)模(mo)式下統一分(fen)配細(xi)(xi)胞(bao)類(lei)(lei)型(xing)是細(xi)(xi)胞(bao)注(zhu)(zhu)(zhu)釋研究的(de)主流方(fang)(fang)(fang)向,最新的(de) Cellar 和 ELeFHAnt 方(fang)(fang)(fang)法在(zai)這方(fang)(fang)(fang)面做了(le)一些嘗試(shi)并取得(de)了(le)初步成(cheng)果(Hasanaj 等(deng)(deng),2022 ; Thorner 等(deng)(deng),2021)。總體而言,基于(yu)(yu)相似性的(de)注(zhu)(zhu)(zhu)釋方(fang)(fang)(fang)法計算量大,在(zai)應用于(yu)(yu)非常大的(de)查詢(xun)和參(can)考數(shu)據(ju)集時,往(wang)往(wang)會在(zai)準確(que)率和速度之間做出(chu)權衡,因此一般只適合在(zai)較小的(de)數(shu)據(ju)集中進(jin)(jin)行細(xi)(xi)胞(bao)分(fen)類(lei)(lei);對于(yu)(yu)較大規模(mo)的(de)數(shu)據(ju)集,建議使用 F 檢驗特征選擇或 MLP 分(fen)類(lei)(lei)器(Hu 等(deng)(deng),2020a ; Huang and Zhang, 2021 ; Ma 等(deng)(deng),2021c)。此外,半監督遷移(yi)學(xue)習(xi)的(de)方(fang)(fang)(fang)法,如 Itclust,在(zai)發現新的(de)細(xi)(xi)胞(bao)亞型(xing)方(fang)(fang)(fang)面也有(you)不(bu)錯的(de)效果。近(jin)年來(lai),基于(yu)(yu)上(shang)述(shu)參(can)考注(zhu)(zhu)(zhu)釋方(fang)(fang)(fang)法分(fen)類(lei)(lei)的(de)新方(fang)(fang)(fang)法不(bu)斷完善(shan),VAE 等(deng)(deng)深度學(xue)習(xi)模(mo)型(xing)也在(zai)該(gai)領域得(de)到應用。
8、差異表達分析(DEG)
統計檢(jian)(jian)(jian)驗(yan)(yan)(yan)是(shi) Bulk RNA-seq 的差(cha)異(yi)基(ji)因分(fen)(fen)(fen)(fen)析(xi)中(zhong)常(chang)用到的方法,類似章節 2.4HVG Selection 算法:通(tong)(tong)常(chang)以 P 值(zhi)(zhi)和(he)(he)對(dui)數倍(bei)變化量(liang)作為(wei)重(zhong)要參數。統計檢(jian)(jian)(jian)驗(yan)(yan)(yan)包(bao)括 t 檢(jian)(jian)(jian)驗(yan)(yan)(yan)(兩個(ge)樣(yang)本為(wei)基(ji)礎),Wilcoxon 檢(jian)(jian)(jian)驗(yan)(yan)(yan),Kolmogorov-Smirnov 檢(jian)(jian)(jian)驗(yan)(yan)(yan)(KS 檢(jian)(jian)(jian)驗(yan)(yan)(yan)),Kruskal-Wallis 檢(jian)(jian)(jian)驗(yan)(yan)(yan)(KW 檢(jian)(jian)(jian)驗(yan)(yan)(yan)),其中(zhong)一些(xie)在單細胞轉錄組(zu) DEGs 的檢(jian)(jian)(jian)驗(yan)(yan)(yan)中(zhong)也(ye)被(bei)廣泛使用。基(ji)于(yu)(yu)此,發展了(le)相應的檢(jian)(jian)(jian)測(ce)工具:limma(Ritchie 等,2015),edgeR(Robinson 等,2010),DESeq2(Love 等,2014)。limma 和(he)(he) edgeR 算法均由(you) Smyth GK 提出(chu),前者(zhe)基(ji)于(yu)(yu)正態或近似正態分(fen)(fen)(fen)(fen)布(bu)(bu)模(mo)(mo)(mo)型(xing)(xing),后(hou)者(zhe)基(ji)于(yu)(yu)過(guo)度離散(san)的泊松(song)分(fen)(fen)(fen)(fen)布(bu)(bu)模(mo)(mo)(mo)型(xing)(xing)。DESeq2 基(ji)于(yu)(yu) NB 分(fen)(fen)(fen)(fen)布(bu)(bu)模(mo)(mo)(mo)型(xing)(xing)進行(xing)假(jia)設檢(jian)(jian)(jian)驗(yan)(yan)(yan),對(dui) DEG 采用經驗(yan)(yan)(yan)貝葉斯(si)程(cheng)序。目前 limma 由(you)于(yu)(yu)特(te)定(ding)的分(fen)(fen)(fen)(fen)布(bu)(bu)模(mo)(mo)(mo)型(xing)(xing)假(jia)設,在 RNA 計數分(fen)(fen)(fen)(fen)析(xi)中(zhong)誤差(cha)較大,雖然 edgeR 和(he)(he) DESeq2 都利用貝葉斯(si)模(mo)(mo)(mo)型(xing)(xing)對(dui)過(guo)度離散(san)進行(xing)歸一化,但后(hou)者(zhe)通(tong)(tong)過(guo)數據集(ji) reads 的平均值(zhi)(zhi)和(he)(he)異(yi)常(chang)值(zhi)(zhi)檢(jian)(jian)(jian)測(ce)促進了(le) CPM 閾值(zhi)(zhi)的篩選,分(fen)(fen)(fen)(fen)析(xi)效(xiao)果更好(hao)。
單(dan)細胞轉(zhuan)錄組 DEG 按照時間和(he)分(fen)析(xi)方法(fa)(fa)大(da)致可以(yi)分(fen)為早期零值參(can)數(shu)(shu)檢(jian)驗(yan)(yan)、非參(can)數(shu)(shu)檢(jian)驗(yan)(yan)和(he)其他方法(fa)(fa)。由于 scRNA-seq 數(shu)(shu)據(ju)中存(cun)在大(da)量零數(shu)(shu),早期的(de)(de)方法(fa)(fa)大(da)多基于此(ci)觀察做參(can)數(shu)(shu)檢(jian)驗(yan)(yan),例如 Monocle (Trapnell 等(deng),2014)、SCDE (Kharchenko 等(deng),2014)、MAST (Finak 等(deng),2015)、scDD (Korthauer 等(deng),2016)、D3E (Delmans and Hemberg, 2016)、TASC (Jia 等(deng),2017)、DEsingle (Miao 等(deng),2018) 和(he) HIPPO (Kim 等(deng),2020b)。對(dui)以(yi)上一些方法(fa)(fa)的(de)(de)評(ping)測(ce)表明,雖(sui)然它們(men)在單(dan)細胞數(shu)(shu)據(ju)集的(de)(de)分(fen)析(xi)中普(pu)遍取得了不(bu)錯的(de)(de)效果,但對(dui)于批量數(shu)(shu)據(ju)(Soneson and Robinson, 2018)相(xiang)比 DEA 方法(fa)(fa)并沒有(you)(you)明顯的(de)(de)性能(neng)提升。對(dui)于不(bu)同的(de)(de)數(shu)(shu)據(ju)集,有(you)(you)可能(neng)沒有(you)(you)最好的(de)(de)分(fen)布模型,因(yin)此(ci)一種替代(dai)解決方案是(shi)考慮(lv)非參(can)數(shu)(shu) DEA 方法(fa)(fa)。
非參(can)數檢(jian)驗(yan)或無分(fen)(fen)布(bu)檢(jian)驗(yan)不需要對數據(ju)分(fen)(fen)布(bu)形式做事先假設,因(yin)此(ci)適(shi)用(yong)于(yu)(yu)(yu)多數據(ju)集的(de)(de)(de)(de)(de)分(fen)(fen)析,常用(yong)方(fang)法(fa)有 Swish(Zhu 等(deng)(deng),2019a)、IDEAS(Zhang 等(deng)(deng),2022d)、ccdf(Gauthier 等(deng)(deng),2021)、distinct(Tiberi 等(deng)(deng),2022)。Swish 通過 Salmon Gibbs 評(ping)估轉(zhuan)錄本水平,然(ran)后(hou)用(yong) Mann-Whitney Wilcoxon 檢(jian)驗(yan)計算 FC 值(zhi)。IDEAS 是一種使用(yong) Jensen-Shannon 散(san)度(du)(JSD)或 Wasserstein 距(ju)離(Was)進行(xing)基(ji)(ji)因(yin)差異表達測量的(de)(de)(de)(de)(de)偽 F 統計量檢(jian)驗(yan),P 值(zhi)由基(ji)(ji)于(yu)(yu)(yu) PERMANOVA 的(de)(de)(de)(de)(de)距(ju)離測試器基(ji)(ji)于(yu)(yu)(yu)核的(de)(de)(de)(de)(de)回歸生成(cheng)。Ccdf 是一種依賴條(tiao)件(jian)累積(ji)分(fen)(fen)布(bu)函(han)數的(de)(de)(de)(de)(de)條(tiao)件(jian)獨立(li)性(xing)檢(jian)驗(yan),通過多元回歸模(mo)型預測 DEG。Distinct 提出(chu)了一種分(fen)(fen)層非參(can)數置(zhi)換方(fang)法(fa),使用(yong)經驗(yan)累積(ji)分(fen)(fen)布(bu)函(han)數 (ECDF) 的(de)(de)(de)(de)(de)總距(ju)離進行(xing) DEG 識別。替代方(fang)法(fa)包括深度(du)學習策略 MRFscRNAseq (Li 等(deng)(deng),2021a)、基(ji)(ji)于(yu)(yu)(yu)擬時(shi)序推斷的(de)(de)(de)(de)(de) PseudotimeDE (Song and Li, 2021)、基(ji)(ji)于(yu)(yu)(yu)非預聚類的(de)(de)(de)(de)(de) singleCellHaystack (Vandenbon and Diez, 2020)、基(ji)(ji)于(yu)(yu)(yu)多重評(ping)分(fen)(fen)的(de)(de)(de)(de)(de) MarcoPolo (Kim 等(deng)(deng),2022)。建議(yi)不同(tong)(tong)的(de)(de)(de)(de)(de)單(dan)細胞轉(zhuan)錄組數據(ju)集應采(cai)用(yong)數據(ju)特定的(de)(de)(de)(de)(de) DEGs 檢(jian)測策略,以優化(hua) DEGs 分(fen)(fen)析,基(ji)(ji)于(yu)(yu)(yu) scCODE 工作流程,可以使用(yong)涉及(ji) CDO(DE 基(ji)(ji)因(yin)順序)和 AUCC(一致性(xing)曲線(xian)下(xia)面(mian)積(ji))的(de)(de)(de)(de)(de)指標(biao)找到最(zui)優化(hua)的(de)(de)(de)(de)(de) DEGs 方(fang)法(fa)(Zou 等(deng)(deng),2022)。此(ci)外,研(yan)究方(fang)法(fa)在不同(tong)(tong)的(de)(de)(de)(de)(de)研(yan)究背景下(xia)會有特定的(de)(de)(de)(de)(de)研(yan)究取向(xiang),例(li)如在給藥后(hou)的(de)(de)(de)(de)(de)劑量反應研(yan)究中,DEGs 分(fen)(fen)析、LRT 線(xian)性(xing)檢(jian)驗(yan)和貝葉(xie)斯多組檢(jian)驗(yan)均(jun)比其他(ta)方(fang)法(fa)有更(geng)好的(de)(de)(de)(de)(de)結果(Nault 等(deng)(deng),2022)。
9、可視化
單細胞轉錄組(zu)數據(ju)分(fen)析(xi)可(ke)(ke)(ke)視化(hua)(hua)是(shi)(shi)指將上述分(fen)析(xi)結(jie)果以圖(tu)形的(de)(de)(de)(de)(de)形式(shi)直觀地(di)呈(cheng)現,ggplot2 是(shi)(shi) R 中(zhong)最廣泛的(de)(de)(de)(de)(de)可(ke)(ke)(ke)視化(hua)(hua)工具,在 R 中(zhong)被廣泛使用,可(ke)(ke)(ke)以大(da)大(da)增強繪(hui)圖(tu)能力(Wickham,2009)。ARL 是(shi)(shi)另一個(ge)專門顯(xian)示標記(ji)基(ji)(ji)因(yin)(yin)(yin)關聯圖(tu)并可(ke)(ke)(ke)顯(xian)示其在每個(ge)簇中(zhong)的(de)(de)(de)(de)(de)特征的(de)(de)(de)(de)(de) R 包(bao)(Gralinska 等,2022)。此外(wai)(wai),還有其他專門用于標記(ji)基(ji)(ji)因(yin)(yin)(yin)可(ke)(ke)(ke)視化(hua)(hua)的(de)(de)(de)(de)(de)包(bao),如(ru) Complex Heatmap,本文不(bu)再(zai)詳細介紹(shao)。HVG 可(ke)(ke)(ke)視化(hua)(hua)通(tong)常(chang)以火(huo)山圖(tu)的(de)(de)(de)(de)(de)形式(shi)呈(cheng)現,默認情況下,圖(tu)的(de)(de)(de)(de)(de)左側和(he)右側部(bu)分(fen)分(fen)別是(shi)(shi)代表性不(bu)足的(de)(de)(de)(de)(de)基(ji)(ji)因(yin)(yin)(yin)和(he)代表性過高的(de)(de)(de)(de)(de)基(ji)(ji)因(yin)(yin)(yin),而中(zhong)間是(shi)(shi)恒定(ding)基(ji)(ji)因(yin)(yin)(yin)。Enhanced Volcano 是(shi)(shi)一個(ge)專門用于繪(hui)制火(huo)山圖(tu)的(de)(de)(de)(de)(de) R 包(bao),默認情況下也可(ke)(ke)(ke)以使用 ggplot2 來獲得更好的(de)(de)(de)(de)(de)結(jie)果。簇可(ke)(ke)(ke)視化(hua)(hua)通(tong)常(chang)以 PCA 圖(tu)、t-SNE 圖(tu)和(he) UMAP 圖(tu)呈(cheng)現,但值(zhi)得注意的(de)(de)(de)(de)(de)是(shi)(shi),可(ke)(ke)(ke)視化(hua)(hua)的(de)(de)(de)(de)(de)結(jie)果非(fei)常(chang)具有欺騙性,因(yin)(yin)(yin)為(wei)一些小(xiao)的(de)(de)(de)(de)(de)細胞亞(ya)群可(ke)(ke)(ke)能代表 UMAP 圖(tu)中(zhong)顯(xian)示的(de)(de)(de)(de)(de)大(da)量細胞。為(wei)了解決這(zhe)些問題,提出了 den-SNE/densMAP、j-SNE/j-UMAP 等改進方(fang)法(Macqueen,1967;Marco 等,2014)。此外(wai)(wai),FastProject 可(ke)(ke)(ke)以輸出注釋(shi)簇的(de)(de)(de)(de)(de) 2D 顯(xian)示,PieParty 可(ke)(ke)(ke)以在簇 2D 圖(tu)中(zhong)為(wei)每個(ge)基(ji)(ji)因(yin)(yin)(yin)繪(hui)制顏色(se)圖(tu)(DeTomaso and Yosef,2016;Kurtenbach 等,2021)。
同時,單(dan)(dan)細(xi)胞轉錄組數(shu)據的(de)交互(hu)(hu)式可視化是目前的(de)熱門領域(yu),諸如(ru) Single Cell Explorer 等(deng)軟件可以一(yi)定程度上實現交互(hu)(hu)式可視化,但仍需增加交互(hu)(hu)自由度,以提供更全面的(de)單(dan)(dan)細(xi)胞轉錄組數(shu)據 3D 呈現(Cakir 等(deng),2020;Feng 等(deng),2019)。為此,CellexalVR 利用 VR 理論進行交互(hu)(hu)可視化;CellView 是一(yi)個基(ji)于(yu) Web 的(de)工具,包括用于(yu)不同用途的(de)探索選項(xiang)卡(ka)、共(gong)表達選項(xiang)卡(ka)、子簇(cu)分析選項(xiang)卡(ka)模(mo)塊;Cellxgene VIP 是一(yi)個基(ji)于(yu) cellxgene 框架的(de)插件,并(bing)擴展到(dao)基(ji)于(yu)多(duo)個模(mo)塊組合(he)的(de) ST 數(shu)據的(de)交互(hu)(hu)式可視化(Bolisetty 等(deng),2017 ; Legetth 等(deng),2021 ; Li 等(deng),2022f)。
10、單細胞模擬
隨著單(dan)細胞(bao)轉(zhuan)錄組(zu)方法(fa)的(de)不斷(duan)擴展(zhan),基準(zhun)測試成(cheng)為(wei)了重(zhong)要挑戰,關鍵問題是需要穩定可靠(kao)的(de)數(shu)(shu)據,因為(wei)單(dan)細胞(bao)轉(zhuan)錄組(zu)的(de)直接測序可能(neng)缺(que)乏基本事實(shi)(shi)。真實(shi)(shi)的(de)單(dan)細胞(bao)模擬(ni)數(shu)(shu)據為(wei)基準(zhun)測試提供了已知的(de)事實(shi)(shi),允(yun)許使用真實(shi)(shi)數(shu)(shu)據進行(xing)訓練,同時匹(pi)配實(shi)(shi)際數(shu)(shu)據的(de)特征。此外(wai),模擬(ni)數(shu)(shu)據比(bi)真實(shi)(shi)數(shu)(shu)據提供了更大的(de)靈活性,使分析師(shi)能(neng)夠根(gen)據特定的(de)測試方法(fa)調整諸如 dropout rate 等參(can)數(shu)(shu)。
Splatter 是一個(ge)兩(liang)步模(mo)(mo)擬框架,首先(xian)模(mo)(mo)擬來自真實數(shu)(shu)(shu)(shu)據(ju)的(de)(de)估計(ji)參數(shu)(shu)(shu)(shu),然后合(he)并(bing)來自用(yong)戶(hu)的(de)(de)額(e)外參數(shu)(shu)(shu)(shu)(Zappia 等(deng)(deng),2017)。其六個(ge)預先(xian)設計(ji)的(de)(de)管道模(mo)(mo)塊(kuai)接(jie)口確(que)保了(le)(le)數(shu)(shu)(shu)(shu)據(ju)生(sheng)(sheng)成的(de)(de)可重(zhong)復性(xing)(xing)。最(zui)近的(de)(de)更(geng)新側重(zhong)于(yu)專業化(hua)和泛(fan)化(hua)。在(zai)(zai)專業化(hua)領域(yu),splaPop 生(sheng)(sheng)成具有遺(yi)傳效應(數(shu)(shu)(shu)(shu)量(liang)性(xing)(xing)狀基因座(zuo))的(de)(de)人口規模(mo)(mo)數(shu)(shu)(shu)(shu)據(ju),而(er) dyngen 模(mo)(mo)擬動態細(xi)(xi)胞過程,如發育軌跡(Azodi 等(deng)(deng),2021;Cannoodt 等(deng)(deng),2021)。在(zai)(zai)泛(fan)化(hua)領域(yu),Li 的(de)(de)團隊介紹了(le)(le)理想模(mo)(mo)擬的(de)(de)六個(ge)概念,包括真實性(xing)(xing)、基因的(de)(de)保存、基因相關性(xing)(xing)的(de)(de)捕獲(huo)、穩健性(xing)(xing)、參數(shu)(shu)(shu)(shu)可調(diao)性(xing)(xing)和效率(Song 等(deng)(deng),2023b;Sun 等(deng)(deng),2021)。隨(sui)后,scDesign2 提出(chu)來滿足(zu)所有 6 個(ge)屬性(xing)(xing)(Sun 等(deng)(deng),2021),接(jie)著是 scDesign3,解決單細(xi)(xi)胞組(zu)學統計(ji)模(mo)(mo)擬的(de)(de)空白(Song 等(deng)(deng),2023b)。模(mo)(mo)擬準(zhun)確(que)性(xing)(xing)和透(tou)明度的(de)(de)提高增強了(le)(le)不(bu)同(tong)單細(xi)(xi)胞數(shu)(shu)(shu)(shu)據(ju)處理方(fang)法之間(jian)的(de)(de)基準(zhun)測試,指(zhi)導選擇最(zui)合(he)適(shi)的(de)(de)方(fang)法以滿足(zu)特定數(shu)(shu)(shu)(shu)據(ju)和許可需求。