Logo
  • Source Code
  1. Introducción
  2. Sobre los datos
  • Introducción
    • Sobre nosotras
    • Resumen
    • Sobre los datos
    • Glosario
    • Buenas prácticas en la bioinformática
  • Figuras del artículo
    • Reprocesamiento de los datos
    • Reproducción de figuras
    • Figura 2
    • Figura 3
    • Figura 4
    • Figura 5
    • Retos y problemas con el código

On this page

  • Clonar el repositorio desde R
  • Descargar los datos
  • Descomprimir los archivos desde R
  • Importar datos en R
    • Figura 2
    • Figura 3
    • Figura 4
  • Referencias

Sobre los datos

Creado por: Johana Castelán

Clonar el repositorio desde R

Puedes descargar el repositorio completo empleando git clone y el link SSH, solo si ya cuentas con la llave de SSH enlazado a tu github.

git clone git@github.com:ISCB-RSG-MEXICO/Reprohack2025_RLadiesMorelia_RSGMexico.git

Descargar los datos

De igual manera, podemos descargar los archivos necesarios a nuestra computadora y colocarlos en la carpeta “data”

# Define la carpeta donde quieres guardar
carpeta_destino <- "data"

# > raw_data
# Define el nombre que quieres para el archivo
nombre_archivo <- "processed_data.tar.gz"
# Construye la ruta completa
ruta_completa <- file.path(carpeta_destino, nombre_archivo)

# URL de descarga directa
url <- "https://git.embl.de/khedkar/promge/-/raw/main/raw_data.tar.gz"

# Aumentar timeout
options(timeout = 600)  # 10 minutos

# Descarga
download.file(url, destfile = ruta_completa, mode = "wb")


# > Proccessed_data
# Define el nombre que quieres para el archivo
nombre_archivo <- "processed_data.tar.gz"

# Construye la ruta completa
ruta_completa <- file.path(carpeta_destino, nombre_archivo)

# URL de descarga directa
url <- "https://git.embl.de/khedkar/promge/-/raw/main/processed_data.tar.gz"

# Descarga
download.file(url, destfile = ruta_completa, mode = "wb")
Note

Los archivos pesan 94.2 Mb y 2280.8 Mb de manera comprimida, processed_data.tar.gz y raw_data.tar.gz, respectivamente.

Descomprimir los archivos desde R

library(R.utils)

untar('data/processed_data.tar.gz')
untar('data/raw_data.tar.gz')

Importar datos en R

Figura 2

Datos de la Figura 2A:

mge_solitary <- read_tsv("processed_data/solitary_mge_bins_final.txt", col_names = F)
Rows: 1647630 Columns: 15                                  s
── Column specification ───────────────────────────────────
Delimiter: "\t"
chr  (2): X10, X15
dbl (13): X1, X2, X3, X4, X5, X6, X7, X8, X9, X11, X12,...

Datos de la Figura 2B:

mge_pg <- read_tsv("processed_data/mge_bins_per_genome_final.txt", col_names = T)
Rows: 76902 Columns: 14                                                                
── Column specification ───────────────────────────────────────────────────────────────
Delimiter: "\t"
chr (6): Genome, specI, kingdom, phylum, class, genus
dbl (8): IS_Tn, Phage, Phage_like, CE, Integron, MI, Hotspot, Cellular

Figura 3

tax <- read_tsv("raw_data/species_with_atleast_2genomes.list", col_names=F)
Rows: 77107 Columns: 6                                                                
── Column specification ──────────────────────────────────────────────────────────────
Delimiter: "\t"
chr (6): X1, X2, X3, X4, X5, X6
db <-read_tsv("processed_data/mge_bins_per_genome_final.txt", col_names = T)
Rows: 76902 Columns: 14                                                               
── Column specification ──────────────────────────────────────────────────────────────
Delimiter: "\t"
chr (6): Genome, specI, kingdom, phylum, class, genus
dbl (8): IS_Tn, Phage, Phage_like, CE, Integron, MI, Hotspot, Cellular
gs <-read_tsv("raw_data/genome_size.txt", col_names = T)
Rows: 84022 Columns: 3                                                                
── Column specification ──────────────────────────────────────────────────────────────
Delimiter: "\t"
chr (2): strain, SpecI_id_v3
dbl (1): ProteinGeneCounts
class_tree <- read.tree("raw_data/progenomes2_class_tree.nwk")

Es un archivo Newick (.nwk).

glist <- read_tsv("raw_data/genome_status_supplementary_tableS2.txt", col_names = T)
Rows: 84022 Columns: 7                                                                
── Column specification ──────────────────────────────────────────────────────────────
Delimiter: "\t"
chr (5): genome, assembly_status, Marker_lineage, genome_quality, species_with_atl...
dbl (2): Completeness, Contamination

Figura 4

data_mf <- read_tsv("raw_data/recombinase_hgt_cluster_master_file.txt", col_names = F)
Rows: 1807030 Columns: 9                                              0s
── Column specification ──────────────────────────────────────────────
Delimiter: "\t"
chr (9): X1, X2, X3, X4, X5, X6, X7, X8, X9
mge_bins <- read_tsv("raw_data/mge_bins_final.txt",col_names = T)
Rows: 1953569 Columns: 15                                             
── Column specification ──────────────────────────────────────────────
Delimiter: "\t"
chr  (2): island, mgeR
dbl (13): IS_Tn, Phage, Phage_like, CE, Integron, MI, Hotspot, UC,...
tax <- read_tsv("raw_data/hgt_species.list", col_names = F)
Rows: 61959 Columns: 6                                                
── Column specification ──────────────────────────────────────────────
Delimiter: "\t"
chr (6): X1, X2, X3, X4, X5, X6
class_tree <- read.tree("raw_data/progenomes2_class_tree.nwk")
Rows: 61959 Columns: 6                                                
── Column specification ──────────────────────────────────────────────
Delimiter: "\t"
chr (6): X1, X2, X3, X4, X5, X6
glist <- read_tsv("raw_data/genome_status_supplementary_tableS2.txt", col_names = T)
Rows: 84022 Columns: 7                                                0s
── Column specification ──────────────────────────────────────────────
Delimiter: "\t"
chr (5): genome, assembly_status, Marker_lineage, genome_quality, ...
dbl (2): Completeness, Contamination

Referencias

  • Clone an existing GitHub project to new RStudio project - explicacion
  • Conectar a GitHub con SSH - explicacion