-
Notifications
You must be signed in to change notification settings - Fork 10
二代测序的突变筛选(Variant detection)
Ricky Woo edited this page Sep 22, 2017
·
2 revisions
- 点突变(point mutation):SNP/SNV
- 插入/删除(Insert/deletion):indel
- 拷贝数变异(Copy number variant, copy number alteration):CNV/CNA
- 纯合子删除(homozygous deletion)
- 半合子删除(hemizygous deletion)
- 获取(gain)
- 结构性变异(structural variant)
- 异位(translocation)
- 外源基因的插入(non-host sequence/pathogen/virus)
- 关于FASTQ的格式的更多信息,请参见https://maq.sourceforge.net/fastq.shtml
- 如果从NCBI SRA下的数据的原始格式是sra,则需要用
sratoolkit
中的fastq-dump
转换为FASTQ格式 - 一般来说,由于FASTQ是一种文本格式,占据空间较大,一般需要转化为压缩格式
.gz
或者bz2
;现在很多的工具都可以接受压缩格式作为输入
- 预处理(Preprocessing)
- 质量控制(quality control):
fastqc
- 去除低质位点(read trimming):
trimmomatic
- 与参考基因组进行比对(mapping to reference genome)
- 选择参考基因组的版本,对人来说,可以是GRCh37/hg19,现在主流的是38
- 选择用的比对工具,如
bwa
,bowtie2
,华大的soap
等 - 比对后如何进行处理,常用的工具有
samtools
,picard
等- 关于SAM(sequence alignment map)的格式的更多信息,请参见
- 突变的发现(variant calling)
-
samtools mpileup
可以用于发现突变,突变识别后用samtools tview
或IGV等工具进行进一步的可视化分析 -
GATK
是Broad Institute开发的由JAVA编写的工具
- 突变的功能分析(functional analysis)
-
annovar
这个工具整合了比较多的注释信息,是不错的选择。
- 结果的可视化展示(visualization)
-
circos
是用Perl开发的可视化工具
On the way to the garden of bioinformatics.
A bioinformatics wiki for the course BI462.