基因组文件处理

文件格式

常用文件格式有fa、sam、bam

sam一般是比对后的序列信息
bam是sam的二进制表示，占用空间比sam小得多，二者之间可以相互转化

bwa

bwa使用时首先需要建立参考序列的索引

1	bwa index refer.fa

想要将reads比对到参考序列时

1	bwa mem refer.fa reads.fq > result.sam

samtools

将bam文件转化成fastq文件

1	samtools bam2fq -s abc.fq abc.bam

将sam文件转化成bam文件

1	samtools view -b -S abc.sam > abc.bam

提取比对到参考序列上的比对结果

1
2
3

samtools view -b -F 4 abc.bam > abc.F.bam
samtools view -b -S -F 4 abc.sam > abc.F.bam

bam文件转化为sam文件

1	samtools view -h abc.bam > abc.sam

提取fastq中的基因

#首先为利用faidx为fasta文件建立索引
samtools faidx input.fa
#创建索引之后就可以快速提取了
samtools faidx input.fa gene3 gene5
samtools faidx input.fa chr1:100-200 > chr1.fa

sort

1	samtools sort in.bam -o out.sort.bam

可视化查看比对结果（查看序列gene1,400bp开始的比对结果）

1	samtools tview in.sorted.bam ref.fa -p gene1:400

blast

构建数据库
makeblastdb -in genome.fasta -dbtype nucl -parse_seqids -out ./index
将核苷酸序列比对至核苷酸数据库
blastn -query input.fa -db ./index -evalue 1e-6 -outfmt 6 -num_threads 6 -out out_file

第1列：输入序列的名称。
第2列：比对到的目标序列名称。
第3列：序列相似度。
第4列：比对的有效长度。
第5列：错配数。
第6列：gap数。
第7-8列：输入序列比对上的起始和终止位置。
第9-10列：比对到目标序列的起始和终止位置。
第11列：e-value。e-value低于1e-5就可认为序列具有较高的同源性。
第12列：比对得分
如果想要知道序列每个碱基的比对情况，删去outfmt参数即可。
centos挂载windows共享文件夹
首先需要安装cifs-ufils

1	yum install cifs-ufils

然后挂载

1	mount -t cifs -o username=xxx //shared_link/path /mount_path

Bowtie2 是将测序reads与长参考序列比对工具。适用于将长度大约为50到100或1000字符的reads与相对较长的基因组（如哺乳动物）进行比对。Bowtie2使用FM索引（基于Burrows-Wheeler Transform 或 BWT）对基因组进行索引，以此来保持其占用较小内存。对于人类基因组来说，内存占用在3.2G左右。Bowtie2 支持间隔，局部和双端对齐模式。可以同时使用多个处理器来极大的提升比对速度。