Chapter 5 Limpieza de datos
A continuación, voy a hacer la limpieza de las muestras poco informativas. Observa en la siguiente gráfica la distribución de las muestras.
# Guardar nuestro objeto RSE por si luego cambio de opinión
rse_gene_unfiltered <- rse_gene
# Restablecer el objeto RSE a una instancia antes del filtrado
#rse_gene <- rse_gene_unfiltered
# Graficar la distribucion de las muestras
hist(rse_gene$assigned_gene_prop)
abline(v=0.37,col = "red")
Se descartan las uestras que estan por debajo de un umbral de 0.37, el cual representa el primer cuartil. La distribución resultante es la siguiente.
# Eliminar las muestras de menor calidad
rse_gene <- rse_gene[, rse_gene$assigned_gene_prop > 0.37]
hist(rse_gene$assigned_gene_prop)
Es momento de hacer limpieza de genes poco informativos. Las estadísticas de todos los genes son las siguientes.
# Obtener estadísticas de la expresión de genes
gene_means <- rowMeans(assay(rse_gene, "counts"))
summary(gene_means)## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0 0.2 3.5 403.3 74.5 888097.9
Se eliminará de nuevo el primer cuartil. Por último, se índica el porcentaje de muestras conservadas depués del filtrado. En este caso, me quede con aproximadamente el 73.4% de los datos originales. De nuevo muestro la gráfica RIN, pero esta vez con los datos filtrados. Al parecer, la calidad de los datos mejoró considerablemente después de la limpieza.
# Filtrar genes
rse_gene <- rse_gene[gene_means > 0.2, ]
round(nrow(rse_gene) / nrow(rse_gene_unfiltered) * 100, 2)## [1] 73.39
# Graficar los niveles de expresion RIN
with(colData(rse_gene), plot(assigned_gene_prop, sra_attribute.rin))