文件格式
常用文件格式有fa、sam、bam
- sam一般是比对后的序列信息
- bam是sam的二进制表示,占用空间比sam小得多,二者之间可以相互转化
bwa
- bwa使用时首先需要建立参考序列的索引
- 想要将reads比对到参考序列时
1
| bwa mem refer.fa reads.fq > result.sam
|
- 将bam文件转化成fastq文件
1
| samtools bam2fq -s abc.fq abc.bam
|
- 将sam文件转化成bam文件
1
| samtools view -b -S abc.sam > abc.bam
|
- 提取比对到参考序列上的比对结果
1 2 3
| samtools view -b -F 4 abc.bam > abc.F.bam samtools view -b -S -F 4 abc.sam > abc.F.bam
|
- bam文件转化为sam文件
1
| samtools view -h abc.bam > abc.sam
|
- 提取fastq中的基因
1 2 3 4 5
| #首先为利用faidx为fasta文件建立索引 samtools faidx input.fa #创建索引之后就可以快速提取了 samtools faidx input.fa gene3 gene5 samtools faidx input.fa chr1:100-200 > chr1.fa
|
- sort
1
| samtools sort in.bam -o out.sort.bam
|
- 可视化查看比对结果(查看序列gene1,400bp开始的比对结果)
1
| samtools tview in.sorted.bam ref.fa -p gene1:400
|
blast
-
构建数据库
makeblastdb -in genome.fasta -dbtype nucl -parse_seqids -out ./index
-
将核苷酸序列比对至核苷酸数据库
blastn -query input.fa -db ./index -evalue 1e-6 -outfmt 6 -num_threads 6 -out out_file
第1列:输入序列的名称。
第2列:比对到的目标序列名称。
第3列:序列相似度。
第4列:比对的有效长度。
第5列:错配数。
第6列:gap数。
第7-8列:输入序列比对上的起始和终止位置。
第9-10列:比对到目标序列的起始和终止位置。
第11列:e-value。e-value低于1e-5就可认为序列具有较高的同源性。
第12列:比对得分
如果想要知道序列每个碱基的比对情况,删去outfmt参数即可。
-
centos挂载windows共享文件夹
首先需要安装cifs-ufils
然后挂载
1
| mount -t cifs -o username=xxx //shared_link/path /mount_path
|
Bowtie2 是将测序reads与长参考序列比对工具。适用于将长度大约为50到100或1000字符的reads与相对较长的基因组(如哺乳动物)进行比对。Bowtie2使用FM索引(基于Burrows-Wheeler Transform 或 BWT)对基因组进行索引,以此来保持其占用较小内存。对于人类基因组来说,内存占用在3.2G左右。Bowtie2 支持间隔,局部和双端对齐模式。可以同时使用多个处理器来极大的提升比对速度。
Xshell 上传下载文件
- rz 上传到Linux上
- sz file 下载到本地电脑上