banner
Casa / Notizia / Analisi delle corrispondenze per la riduzione delle dimensioni, l'integrazione batch e la visualizzazione dei singoli
Notizia

Analisi delle corrispondenze per la riduzione delle dimensioni, l'integrazione batch e la visualizzazione dei singoli

May 16, 2023May 16, 2023

Rapporti scientifici volume 13, numero articolo: 1197 (2023) Citare questo articolo

3634 accessi

1 Citazioni

20 Altmetrico

Dettagli sulle metriche

Un'efficace riduzione delle dimensioni è essenziale per l'analisi di RNA-seq (scRNAseq) a singola cellula. L'analisi delle componenti principali (PCA) è ampiamente utilizzata, ma richiede dati continui e normalmente distribuiti; pertanto, è spesso accoppiato con la trasformazione logaritmica nelle applicazioni scRNAseq, che può distorcere i dati e oscurare variazioni significative. Descriviamo l'analisi delle corrispondenze (CA), un'alternativa basata sul conteggio alla PCA. La CA si basa sulla decomposizione di una matrice residua chi quadrato, evitando trasformazioni logaritmiche distorsive. Per affrontare la sovradispersione e l'elevata scarsità nei dati scRNAseq, proponiamo cinque adattamenti di CA, che sono veloci, scalabili e superano le prestazioni di CA e glmPCA standard, per calcolare gli incorporamenti di celle con una precisione di clustering più performante o comparabile in 8 set di dati su 9. In particolare, troviamo che la CA con i residui di Freeman-Tukey funziona particolarmente bene su diversi set di dati. Altri vantaggi del framework CA includono la visualizzazione delle associazioni tra geni e popolazioni cellulari in un "biplot CA" e l'estensione all'analisi multitabella; introduciamo il corralm per la riduzione dimensionale multi-tabella integrativa dei dati scRNAseq. Implementiamo CA per i dati scRNAseq in corral, un pacchetto R/Bioconductor che si interfaccia direttamente con le classi di singole cellule in Bioconductor. Il passaggio da PCA a CA si ottiene tramite una semplice sostituzione della pipeline e migliora la riduzione delle dimensioni dei set di dati scRNAseq.

Il sequenziamento dell'mRNA di una singola cellula (scRNAseq) misura simultaneamente i livelli di trascrizione dei geni in migliaia di singole cellule, fornendo una finestra sulla diversità trascrizionale e funzionale delle cellule in un tessuto o in un esperimento. Questi set di dati complessi sono ordini di grandezza maggiori di quelli incontrati durante l'analisi dei dati RNAseq "in massa" da campioni di tessuto. Sebbene tali dati a risoluzione fine abbiano il potenziale per rivelare nuove scoperte biologiche, i dati scRNAseq mostrano scarsità, rumorosità e artefatti tecnici oltre quelli osservati per campioni di RNA in massa1,2, richiedendo pre-elaborazione e normalizzazione specifiche di scRNAseq3,4. Tipicamente l'analisi scRNAseq include l'uso della riduzione delle dimensioni per attenuare il rumore e garantire la trattabilità computazionale, ma la scelta del metodo influenza notevolmente le analisi, i risultati e le conclusioni a valle3,5.

È importante selezionare un metodo di riduzione delle dimensioni appropriato; un metodo efficace trova una rappresentazione dei dati che riduca al minimo il rumore e la ridondanza, scoprendo al contempo segnali significativi che rivelano strutture e modelli latenti all'interno dei dati6,7. Quando definite dai dati scRNAseq, le rappresentazioni di incorporamento di dimensione ridotta sono più utili quando preservano variazioni significative e biologicamente rilevanti; sono robusti, nel senso che la scomposizione di osservazioni nuove ma simili produce costantemente uno spazio di inclusione simile; e generalizzare e trasferire a nuovi dati, consentendo di proiettare nuove osservazioni derivanti da processi biologici simili nello stesso spazio latente.

I conteggi di ScRNAseq sono generalmente modellati come distribuiti multinomialmente e sono spesso approssimati come binomiali negativi o Poisson2, riflettendo il fatto che i dati non sono né continui né approssimativamente gaussiani. Pertanto, l'uso dell'analisi delle componenti principali (PCA) richiede che i dati di conteggio scRNAseq discreti e sparsi vengano trasformati prima della riduzione delle dimensioni con questo metodo6. PCA è un metodo di riduzione della dimensione lineare che ottiene una rappresentazione dei dati a bassa dimensionalità lungo assi lineari ortogonali in modo tale che la proporzione della varianza contabilizzata su ciascun asse sia massimizzata nello spazio euclideo4,8,9,10,11. Poiché la PCA è più adatta per dati continui distribuiti in modo approssimativamente normale, potrebbe presentare artefatti se applicata a dati con gradienti o dati non continui (come i conteggi); uno di questi artefatti, chiamato effetto "arco" o "ferro di cavallo", si verifica quando la PCA viene applicata ai dati scRNAseq senza trasformazione logaritmica4,6,12. Pertanto, in pratica, e nonostante i problemi noti relativi all'applicazione della trasformazione logaritmica ai dati di conteggio scRNAseq2,13,14, la maggior parte dei flussi di lavoro a cella singola iniziano con una trasformazione logaritmica (x + 1) della matrice dei conteggi e quindi utilizzano PCA per decomporre il risultato dati "logcounts"3. L'uso dei logcount ha una scarsa giustificazione teorica e in alcuni casi può oscurare variazioni significative2,14, ma i risultanti incorporamenti di dimensione ridotta dei dati della PCA vengono comunque utilizzati nel clustering scRNAseq, nell'analisi della traiettoria e nella classificazione del tipo di cellula3. Sono stati proposti diversi approcci di riduzione delle dimensioni su misura per i conteggi scRNAseq, inclusi metodi come ZINB-WaVE, il primo metodo appropriato per l'uso con i conteggi che si basa su un modello binomiale negativo con gonfiaggio zero per la scomposizione dei conteggi e analisi fattoriale con gonfiaggio zero ( ZIFA)2,15,16,17. Tuttavia, la PCA rimane il metodo più utilizzato, in gran parte grazie alla sua semplicità, velocità ed efficienza computazionale. In un confronto tra 18 metodi di riduzione dimensionale, la PCA si è classificata ai primi posti quando sono state considerate l'accuratezza e le prestazioni nell'analisi a valle con la scalabilità computazionale18.