Skip to content

文章写作中的统计学关键(Statistical key points in writing)

Ricky Woo edited this page Sep 30, 2017 · 1 revision

基本的指导方针(big picture)

统计学设计和分析必须

  • 清楚阐述你的假设,以及检验你所提出的假设的主要策略和方法;
  • 你的试验设计具有足够的power去验证或者推翻你的假设

关于统计学模型的应用

  • 将你的研究目标分解为一个个的小目标,且每个目标精确对应清晰的、能够被验证的假设;
  • 具有清晰的outcome,明确列出其他所有需要的variable及其数据类型(例如连续、分类、有序等);
  • 清楚阐述你所使用的模型,以及该模型需要满足的假设;
  • 论证你的变量/结果等是否能满足模型所需要的假设(例如正态性、方差齐性、独立性等等);
  • 如果不满足,需要用哪些模型去校正,例如t检验的要求是数据必需满足正态性(至少是对称性),如果不能满足,需要用t检验的非参数方法如Wilcoxon Mann-Whitney rank sum test作为替代;而对于不能满足独立性的数据,可以用GEE、Mixed model等去替代;等等

常见的统计学分析中出现的问题

  • 研究的试验设计包含了相关(correlated)、纵向(longitudinal)以及分层(multilevel)数据,但分析方法未能体现;
  • 分析中未能针对出项的缺失数据(missing data)进行处理,尤其是当数据的缺失并非MCAR(missing completely at ranom)或MAR(missing at random)
  • 忽略了样本不同权重设置的问题;
  • 分析过程使用的统计学方法与最初的统计学效力(statistical power)的计算不匹配
  • 忽视了与你的研究领域密切相关的统计学问题(例如,实验中出现的测量误差(meansurement error),问卷调查中的针对敏感问题的回答的有偏性(bias));
  • 忽略了多重假设检验的校正;
  • 假设模型中包含了交互项(interaction term),但分析和计算power时却未能考虑在内;
  • 采用了大批没有明确理由纳入的协变量(covariates);
  • 没有考虑研究的可重复性的问题(reproducibility);
  • 随意调整统计分析方法、变量和假设;
  • 随意将连续数据离散化处理,离散性数据更离散或者合并分类数据等都必需有明确阐述的理由;

如何计算power

  • power的计算必须基于所使用的分析模型的基础上;
  • 必需考虑是否存在相关(correlated)、协变量的校正(covariates-adjusted)以及样本权重的调整(weighted)
  • power的计算通常是近似的(approximate);
  • 某些特殊的情况(如特殊数据结构)需要用simulation进行模拟计算
  • 如果考虑到你的数据中包含的缺失数据,我们可以把需要的样本量提高到原有的110-120%比较合适
  • 如果存在混杂因素(confounders),我们在考虑效应的时候,需要根据已有的研究估计混杂因素对效应的解释的百分比。比如,计算的可能OR为1.50,但其中25%的效应是由混杂因素引起的,这样我们必须将OR值调整为1.375(1.0 + (1.5-1)*(1-0.25));
  • 所有的近似计算必须往更保守的方向去计算;

A bioinformatics wiki for the course BI462.

Clone this wiki locally