R在read.table的时候默认check.names=TRUE,此时读入成dataframe的时候会自动更正表头中数字开头的字符,所以想保留原始的表头将check.names设置为FALSE即可:
df <- read.table(file, sep='\t', header=TRUE, check.names=FALSE)
更多生信知识关注:
R在read.table的时候默认check.names=TRUE,此时读入成dataframe的时候会自动更正表头中数字开头的字符,所以想保留原始的表头将check.names设置为FALSE即可:df <- read.table(file, sep='\t', header=TRUE, check.names=FALSE)更多生信知识关注:...
大多数欧洲国家使用逗号代替小数。因此,如果我们有一个包含点作为十进制市场的数据集,并且我们需要使用这四个这样的欧洲国家,或者如果记录点代替逗号,那么我们可以使用格式函数将点
替换
为逗号,如下所示例子。
x1<−sample(c(1.1,1.25,1.57,2.1,2.4),20,replace=TRUE)
y1<−sample(c(20.24,21.27,20.4,20.5,20.37),20,replace=TRUE)
df1<−data.frame(x1,y1)
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
3.删除chanel:
conda config –remove channels https://mir
清理目录的时候发现删除文件夹时报错:
rm: cannot remove ‘.nfs00000024d296fc2f00086d4d’: Device or resource busy
rm: cannot remove ‘.nfs00000024d297fc2f00086d4b’: Device or resource busy
rm: cannot remove ‘.nfs00000024d2983c2f00086d4c’: Device or resource busy
原因:文件被其他进程占.
今天梳理一下最最最最(最X100)常用的mutect2体细胞变异分析流程。主要用来分析肿瘤配对样本,寻找体细胞突变比如SNV和INDEL。官网上已经有了详细的英文版教程。
软件版本:GATK4.1.1.0
官网教程:https://gatk.broadinstitute.org/hc/en-us/articles/360035894731-Somatic-short-variant-discovery-SNVs-Indels-
看下分析的流程图,然后我们从bam文件出发分步讲解:
最近除了画图就是做统计分析,发现R和pandas对于大数据
处理
十分方便,且语法上有相似之处。有的时候脑袋瓜子不灵光一迷糊参数就写错了,因此这里记录整理一下,方便日后查看。
拖到最后可以看到一些常见问题的
处理
方法。
1.数据读入
R语言
:
read
.
table
(file, sep='\t',
header
=TRUE/FALSE, check.names=TRUE/FALSE, skip=0, nrows=10, row.names=, col.names=)
header
:逻辑值,为TRUE则将第
read
.
table
函数在读取数据时,需要指定数据文件的路径和文件名。如果文件路径或文件名存在错误或者数据文件并不存在,就会出现无法打开的情况。另外,如果数据文件格式不符合
read
.
table
函数的要求,也会出现无法打开的情况。
可以检查以下几个方面:
1. 确认文件路径和文件名是否正确,是否存在该文件;
2. 检查数据文件格式是否正确;
3. 确认数据文件是否有读取权限;
4. 如果数据文件是由其他程序生成的,可以检查该程序是否已经关闭该文件,否则可能会导致无法打开;
5. 最后,也可以尝试使用其他读取数据的函数进行读取,例如
read
.csv等。