泛基因组分析流程中文文档

本仓库是一个集成了多个软件，并通过luigi进行流程管理的综合性的流程。概括性的讲，该流程接受的输入是pair end的二代测序单菌株全基因组数据，但也可以接受single end或者从网上下载基因组数据（但需要在data_input.tab中进行区分以上两种/多种数据类型)，通过完整的流程后输出多种结果。

其中包括

拼接后的基因组序列注释后的蛋白质序列结合拼接后的数据和原始数据推断的质粒的基因序列拼接前后的质量、基因组基本信息的评估传统的pubmed的mlst分型结果基于16s/kraken2的物种注释基于abricate的毒力因子/耐药因子的注释 (Insertion sequence)IS区间的注释基于roary的泛基因组分析结果

并基于以上的结果，导入geneious、plotly等可视化软件进行浏览以上的结果

总的来说，该流程执行的目的和使用的软件如下：

质量评估(quality accessment) (fastqc)
质量控制(quality control) (trimmomatic)
综合性的质量评估(multiqc)
拼接 (shovill+spades)
蛋白注释(prokka)
物种注释(kraken2)
基因组基本信息的评估(seqtk)
毒力因子/耐药因子的注释(abricate)
(Insertion sequence)IS区间的注释(ISEscan)
基因组间物种距离的估计，以进行泛基因组分析前的预聚类(mash)
泛基因组分析(roary)

#TODO list

补充基于EZbio的16s物种注释，并入luigi流程中
补充更详细的文档
完善api部分，以实现分块完成
加入更为丰富的流程定制化策略

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!