addressing issue #56

tetomonti · tetomonti · commit 9f9fea1d6ad4 · 2024-05-24T16:49:08.000-04:00
diff --git a/R/hyp_dots.R b/R/hyp_dots.R
@@ -18,101 +18,100 @@
 #' 
 #' @keywords internal
 .dots_multi_plot <- function(multihyp_data,
-                             top=20,
-                             abrv=50,
-                             size_by=c("genesets", "significance", "none"),
-                             pval_cutoff=1, 
-                             fdr_cutoff=1,
-                             val=c("fdr", "pval"),
-                             title="") {
-    
-    # Default arguments
-    val <- match.arg(val)
-    size_by <- match.arg(size_by)
-    
-    # Count significant genesets across signatures
-    multihyp_dfs <- lapply(multihyp_data, function(hyp_obj) {
-        hyp_obj$data %>%
-        dplyr::filter(pval <= pval_cutoff) %>%
-        dplyr::filter(fdr <= fdr_cutoff) %>%
-        dplyr::select(label)
-    })
-    
-    # Take top genesets
-    labels <- names(sort(table(unlist(multihyp_dfs)), decreasing=TRUE))
-    if (!is.null(top)) labels <- head(labels, top)
-    
-    # Handle empty dataframes
-    if (length(labels) == 0) return(ggempty())
-    
-    # Create a multihyp dataframe
-    dfs <- lapply(multihyp_data, function(hyp_obj) {
-        hyp_df <- hyp_obj$data
-        hyp_df[hyp_df$label %in% labels, c("label", val), drop=FALSE]
-    })
-    
-    df <- suppressWarnings(Reduce(function(x, y) merge(x, y, by="label", all=TRUE), dfs))
-    colnames(df) <- c("label", names(dfs))
-    rownames(df) <- df$label
-    df <- df[rev(labels), names(dfs)]
-    
-    # Abbreviate labels
-    label.abrv <- substr(rownames(df), 1, abrv)
-    if (any(duplicated(label.abrv))) {
-        stop("Non-unique labels after abbreviating")
-    } else {
-        rownames(df) <- factor(label.abrv, levels=label.abrv)   
-    }
-    
-    if (val == "pval") {
-        cutoff <- pval_cutoff
-        color.label <- "P-Value"
-    }
-    if (val == "fdr") {
-        cutoff <- fdr_cutoff
-        color.label <- "FDR"
-    }
-    
-    df.melted <- reshape2::melt(as.matrix(df))
-    colnames(df.melted) <- c("label", "signature", "significance")
-    df.melted$size <- 1
-    
-    if (size_by == "significance") {
-        df.melted$size <- df.melted$significance
-    }
-    
-    if (size_by == "genesets") {
-        geneset.sizes <- lapply(multihyp_data, function(hyp_obj) {
-                hyp_obj$data[, c("label", "geneset")]
-            }) %>%
-            do.call(rbind, .) %>%
-            dplyr::distinct(label, .keep_all=TRUE) %>%
-            dplyr::pull(geneset, label)
-        df.melted$size <- geneset.sizes[df.melted$label]
-    }
+                             top = 20,
+                             abrv = 50,
+                             size_by = c("genesets", "significance", "none"),
+                             pval_cutoff = 1,
+                             fdr_cutoff = 1,
+                             val = c("fdr", "pval"),
+                             title = "") 
+{
+  # Default arguments
+  val <- match.arg(val)
+  size_by <- match.arg(size_by)
+
+  # Count significant genesets across signatures
+  multihyp_dfs <- lapply(multihyp_data, function(hyp_obj) {
+    hyp_obj$data %>%
+      dplyr::filter(pval <= pval_cutoff) %>%
+      dplyr::filter(fdr <= fdr_cutoff) %>%
+      dplyr::select(label)
+  })
+  # Take top genesets
+  labels <- names(sort(table(unlist(multihyp_dfs)), decreasing = TRUE))
+  if (!is.null(top)) labels <- head(labels, top)
+
+  # Handle empty dataframes
+  if (length(labels) == 0) {
+    return(ggempty())
+  }
+  # Create a multihyp dataframe
+  dfs <- lapply(multihyp_data, function(hyp_obj) {
+    hyp_df <- hyp_obj$data
+    hyp_df[hyp_df$label %in% labels, c("label", val), drop = FALSE]
+  })
+  df <- suppressWarnings(Reduce(function(x, y) merge(x, y, by = "label", all = TRUE), dfs))
+  colnames(df) <- c("label", names(dfs))
+  rownames(df) <- df$label
+  df <- df[rev(labels), names(dfs)]
 
-    p <- df.melted %>%
+  # Abbreviate labels
+  label.abrv <- substr(rownames(df), 1, abrv)
+  if (any(duplicated(label.abrv))) {
+    stop("Non-unique labels after abbreviating")
+  } else {
+    rownames(df) <- factor(label.abrv, levels = label.abrv)
+  }
+  if (val == "pval") {
+    cutoff <- pval_cutoff
+    color.label <- "P-Value"
+  }
+  if (val == "fdr") {
+    cutoff <- fdr_cutoff
+    color.label <- "FDR"
+  }
+  df.melted <- reshape2::melt(as.matrix(df))
+  colnames(df.melted) <- c("label", "signature", "significance")
+  df.melted$size <- 1
+
+  if (size_by == "significance") {
+    df.melted$size <- df.melted$significance
+  }
+  if (size_by == "genesets") {
+    geneset.sizes <- lapply(multihyp_data, function(hyp_obj) {
+      hyp_obj$data[, c("label", "geneset")]
+    }) %>%
+      do.call(rbind, .) %>%
+      dplyr::distinct(label, .keep_all = TRUE) %>%
+      dplyr::pull(geneset, label)
+    df.melted$size <- geneset.sizes[df.melted$label]
+  }
+  p <- df.melted %>%
     dplyr::filter(significance <= cutoff) %>%
-    ggplot(aes(x=signature, y=label, color=significance, size=size)) +
+    ggplot(aes(x = signature, y = label, color = significance, size = size)) +
     geom_point() +
-    scale_color_continuous(low="#114357", high="#E53935", trans=.reverselog_trans(10)) +
-    labs(title=title, color=color.label) +  
-    theme(plot.title=element_text(hjust=0.5),
-          axis.title.y=element_blank(),
-          axis.title.x=element_blank(),
-          axis.text.x=element_text(angle=45, hjust=1))
-    
-    if (size_by == "none") {
-        p <- p + guides(size="none")
-    }
-    if (size_by == "significance") {
-        p <- p + scale_size_continuous(trans=.reverselog_trans(10)) + labs(size="Significance")
-    }
-    if (size_by == "genesets") {
-        p <- p + scale_size_continuous(trans=scales::log10_trans()) + labs(size="Genesets\nSize")
-    }
-    
-    return(p)
+    scale_color_continuous(low = "#114357", high = "#E53935", trans = .reverselog_trans(10)) +
+    labs(title = title, color = color.label) +
+    theme(
+      plot.title = element_text(hjust = 0.5),
+      axis.title.y = element_blank(),
+      axis.title.x = element_blank(),
+      axis.text.x = element_text(angle = 45, hjust = 1)
+    )
+  if (size_by == "none") {
+    p <- p + guides(size = "none")
+  }
+  if (size_by == "significance") {
+    p <- p + scale_size_continuous(trans = .reverselog_trans(10)) + labs(size = "Significance")
+  }
+  if (size_by == "genesets") {
+    #p <- p + scale_size_continuous(trans = scales::log10_trans()) + labs(size = "Genesets\nSize")
+    p <- p + scale_color_continuous(
+      high = "#114357", low = "#E53935", trans = scales::log10_trans(),
+      guide = guide_colorbar(reverse = TRUE)
+    )
+  }
+  return(p)
 }
 
 #' Plot top enriched genesets