R语言分析单细胞数据Day1——下载Seurat包并进行预处理（一）_r语言单细胞nfeature设为多少较好

link管理

链接快照平台

输入网页链接，自动生成快照
标签化管理网页链接

相关文章推荐

多情的自行车 · 最新中国 PaaS 市场报告说了点啥？· 18 小时前 ·

爱笑的回锅肉 · 干货|10种重要作物基因组数据库_rapdb ...· 昨天 ·

有腹肌的小熊猫 · Chrome 92 ...· 昨天 ·

空虚的毛豆 · 如何快速新增百万测试数据? - 测试派· 2 天前 ·

骑白马的大熊猫 · 教你几招，快速制造五百万级 MySQL ...· 2 天前 ·

憨厚的脆皮肠 · 北京市科学技术委员会、中关村科技园区管理委员 ...· 3 月前 ·

玩足球的稀饭 · Data.List· 5 月前 ·

细心的羊肉串 · XML保留前导空格，但不保留尾随空格-腾讯云 ...· 10 月前 ·

善良的鞭炮 · 乾隆十一年，皇后生下一子，此子生日很特殊，早 ...· 1 年前 ·

帅呆的拖把 · 棉尾 - 洪门手游网· 1 年前 ·

Task.1 安装Seurat，准备处理single cell data

安装Seurat时，只能安装3.2.3以下的版本，太高就不兼容！

install.packages('remotes') %安装过可以省略
remotes:: install_version("Seurat", version = "3.2.3")
# 安装不上可以更新R版本或者安装附属包
Task.2 加载Seurat包并导入数据 
library(Seurat)
# 这里可以设置你的路径，三个文件（mtx数据、行名和列名）都需要加载
# 所使用的数据暂时不公开了，GEO数据库有很多
Day0_RAW <- ReadMtx( mtx = "matrix.mtx", features = "features.tsv",cells = "barcodes.tsv")
Task.3 创建Seurat格式项目 
Seurat_Day0 <- CreateSeuratObject(counts = Day0_RAW,min.cells = 3,min.genes = 200)
# 初步过滤：>=3个细胞中表达的基因(min.cells = 3），>=200个基因的细胞(min.genes = 200)。可任意设置。
创建的项目：33539 features across 22609 samples within 1 assay
 Task.4 质控 
Seurat_Day0[["percent.mt"]] <- PercentageFeatureSet(Seurat_Day0, pattern = "^MT-")
# 这个命令是计算基因含量，这里MT是线粒体的意思
VlnPlot(Seurat_Day0, features = c("nFeature_RNA", "nCount_RNA", "percent.mt"), ncol = 3)
# 可视化一下

 根据第三个图片，线粒体基因含量占比25%以下的细胞才保留
 线粒体是生物大分子，线粒体较多的细胞说明有细胞有可能已经失活，并且噪音也就变的非常多（大佬LR讲解的）
 接下来可视化RNA-基因含量，RNA-feature 
plot1 <- FeatureScatter(Seurat_Day0, feature1 = "nCount_RNA", feature2 = "percent.mt")
plot2 <- FeatureScatter(Seurat_Day0, feature1 = "nCount_RNA", feature2 = "nFeature_RNA")
plot1 + plot2
# 这个可视化感觉要更好看一些

 上面两个可视化是为了根据内容确定筛选的细胞数目和基因数目。下面代码才是最重要的质控代码 
#过滤具有超过 8000 或少于 200 个独特特征的细胞，过滤>25%的线粒体（线粒体不清楚为何过滤）
Seurat_Day0_fit <- subset(Seurat_Day0, subset = nFeature_RNA > 200 & nFeature_RNA < 8000 & percent.mt < 25)
质控后的项目：33539 features across 22433 samples within 1 assay （删除了部分低表达的细胞） 
Task.5 标准化
 对每个细胞的表达量进行归一化（常用“LogNormalize”），将其乘以比例因子（默认为 10,000），并对结果进行对数转换（这个是必须的） 
Seurat_Day0_fit_norm <- NormalizeData(Seurat_Day0_fit , normalization.method = "LogNormalize", scale.factor = 10000)
#这些参数都是默认值，可以不写
至此，数据预处理结束，接下来是降维、聚类等分析。
                                    在生物学研究中，单细胞RNA测序（single-cell RNA sequencing，scRNA-seq）已经成为一种广泛应用的技术，它能够揭示不同细胞类型之间的转录组差异。本文将介绍如何使用R语言对单细胞RNA-seq数据进行分析，特别是细胞单一基因的表达分析。通过预处理和归一化数据，我们可以提取感兴趣的基因，并研究其在不同细胞群中的表达模式。这些分析有助于我们更好地理解单细胞之间的转录组差异及其功能。首先，我们需要加载单细胞RNA-seq数据，并进行必要的预处理步骤，例如质量控制、过滤和归一化。
 Seurat是用于单细胞基因组学的R工具包，由NYGC的Satija实验室开发和维护。
 说明，文档和教程可在以下位置找到：
 Seurat也托管在GitHub上，您可以在以下位置查看和克隆存储库
 通过使用devtools软件包直接从GitHub上安装，Seurat已成功安装在Mac OS X，Linux和Windows上
改进和新功能将定期添加，如有任何问题或您是否愿意贡献，请发布在上
有关版本历史记录/更改日志，请参阅。
                                    CC = home/txb/miniconda3/envs/r-4.2/lib/R/x86_64-conda-linux-gnu-cc前面加个位置。在/home/txb/miniconda3/envs/r-4.2/lib/R/etc/Makeconf文件中。报错2：x86_64-conda-linux-gnu-cc command not found。r- 开头，例如安装stingi包 conda install r-stringi。5.安装R包以 r- 开头，例如安装stingi包。
                                    执行UMAP可视化需要运行PCA降维，PCA降维之前需要缩放数据到一定规模！
接上一篇结果：预处理后的数据
R语言分析单细胞数据Day1——下载Seurat包并进行预处理（一）
Task.1 缩放数据
all.genes <- rownames(Seurat_Day0_fit_norm) #Seurat_Day0_fit_norm这个是上一节的名字，换成自己的项目名即可
Seurat_Day0_fit_norm <- ScaleData(Seurat_Day0_fit_norm, featur.
                                    此文章是通过学习瑞典国家生物信息学基础设施(NBIS) 所开放的单细胞分析教程加上网上所查找的资料，自身的理解所形成的，可能会有不足之处。该部分是对下机处理完成后的数据进行Seurat分析的质控。参考来源：https://nbisweden.github.io/workshop-scRNAseq/labs/compiled/seurat/seurat_01_qc.html感兴趣的话可以阅读原文。
今天安装Seurat时遇到了一个问题：
去网上搜了一下，很多人都遇到了这个问题，但是产生的原因也经常不相同，所以有些解决方法不一定有用。我遇到的问题用了一些网上的解决方案还是不行，偶然发现可能是我的电脑的问题，这里记录一下我的问题以及解决方法。
因为我之前为了不想重复安装R包，直接把旧电脑上的R包迁移到新电脑上了。而旧电脑上的R版本是4.1.0 , 但是新电脑我装了最新的4.2.2 。所以我猜想是我迁移的R包是基于R4.1.0 , 这样有
NGS系列文章包括NGS基础、转录组分析 （Nature重磅综述|关于RNA-seq你想知道的全在这）、ChIP-seq分析 （ChIP-seq基本分析流程）、单细胞测序分析 (重磅综述：三万字长文读懂单细胞RNA测序分析的最佳实践教程 （原理、代码和评述）)、DNA甲基化分析、重测序分析、GEO数据挖掘（典型医学设计实验GEO数据分析 (step-by-ste...
                                    10X单细胞转录组理论上有3个文件才能被读入R进行seurat分析，分别是barcodes.tsv 、 genes.tsv和matrix.mtx，文件barcodes.tsv 和 genes.tsv，就是表达矩阵的行名和列名。