Skip to content

二代测序的突变筛选(Variant detection)

Ricky Woo edited this page Sep 22, 2017 · 2 revisions

突变类型(Types of variants)

  • 点突变(point mutation):SNP/SNV
  • 插入/删除(Insert/deletion):indel
  • 拷贝数变异(Copy number variant, copy number alteration):CNV/CNA
    • 纯合子删除(homozygous deletion)
    • 半合子删除(hemizygous deletion)
    • 获取(gain)
  • 结构性变异(structural variant)
    • 异位(translocation)
    • 外源基因的插入(non-host sequence/pathogen/virus)

输入原始序列:FASTQ

  • 关于FASTQ的格式的更多信息,请参见https://maq.sourceforge.net/fastq.shtml
  • 如果从NCBI SRA下的数据的原始格式是sra,则需要用sratoolkit中的fastq-dump转换为FASTQ格式
  • 一般来说,由于FASTQ是一种文本格式,占据空间较大,一般需要转化为压缩格式.gz或者bz2;现在很多的工具都可以接受压缩格式作为输入

一般分析流程(flow)

  1. 预处理(Preprocessing)
  • 质量控制(quality control):fastqc
  • 去除低质位点(read trimming):trimmomatic
  1. 与参考基因组进行比对(mapping to reference genome)
  • 选择参考基因组的版本,对人来说,可以是GRCh37/hg19,现在主流的是38
  • 选择用的比对工具,如bwabowtie2,华大的soap
  • 比对后如何进行处理,常用的工具有samtoolspicard
    • 关于SAM(sequence alignment map)的格式的更多信息,请参见
  1. 突变的发现(variant calling)
  • samtools mpileup可以用于发现突变,突变识别后用samtools tview或IGV等工具进行进一步的可视化分析
  • GATK是Broad Institute开发的由JAVA编写的工具
  1. 突变的功能分析(functional analysis)
  • annovar这个工具整合了比较多的注释信息,是不错的选择。
  1. 结果的可视化展示(visualization)
  • circos是用Perl开发的可视化工具

A bioinformatics wiki for the course BI462.

Clone this wiki locally