Sobre los datos

Creado por: Johana Castelán

Clonar el repositorio desde R

Puedes descargar el repositorio completo empleando git clone y el link SSH, solo si ya cuentas con la llave de SSH enlazado a tu github.

git clone git@github.com:ISCB-RSG-MEXICO/Reprohack2025_RLadiesMorelia_RSGMexico.git

Descargar los datos

De igual manera, podemos descargar los archivos necesarios a nuestra computadora y colocarlos en la carpeta “data”

# Define la carpeta donde quieres guardar
carpeta_destino <- "data"

# > raw_data
# Define el nombre que quieres para el archivo
nombre_archivo <- "processed_data.tar.gz"
# Construye la ruta completa
ruta_completa <- file.path(carpeta_destino, nombre_archivo)

# URL de descarga directa
url <- "https://git.embl.de/khedkar/promge/-/raw/main/raw_data.tar.gz"

# Aumentar timeout
options(timeout = 600)  # 10 minutos

# Descarga
download.file(url, destfile = ruta_completa, mode = "wb")


# > Proccessed_data
# Define el nombre que quieres para el archivo
nombre_archivo <- "processed_data.tar.gz"

# Construye la ruta completa
ruta_completa <- file.path(carpeta_destino, nombre_archivo)

# URL de descarga directa
url <- "https://git.embl.de/khedkar/promge/-/raw/main/processed_data.tar.gz"

# Descarga
download.file(url, destfile = ruta_completa, mode = "wb")

Note

Los archivos pesan 94.2 Mb y 2280.8 Mb de manera comprimida, processed_data.tar.gz y raw_data.tar.gz, respectivamente.

Descomprimir los archivos desde R

library(R.utils)

untar('data/processed_data.tar.gz')
untar('data/raw_data.tar.gz')

Importar datos en R

Figura 2

Datos de la Figura 2A:

mge_solitary <- read_tsv("processed_data/solitary_mge_bins_final.txt", col_names = F)

Rows: 1647630 Columns: 15                                  s
── Column specification ───────────────────────────────────
Delimiter: "\t"
chr  (2): X10, X15
dbl (13): X1, X2, X3, X4, X5, X6, X7, X8, X9, X11, X12,...

Datos de la Figura 2B:

mge_pg <- read_tsv("processed_data/mge_bins_per_genome_final.txt", col_names = T)

Rows: 76902 Columns: 14                                                                
── Column specification ───────────────────────────────────────────────────────────────
Delimiter: "\t"
chr (6): Genome, specI, kingdom, phylum, class, genus
dbl (8): IS_Tn, Phage, Phage_like, CE, Integron, MI, Hotspot, Cellular

Figura 3

tax <- read_tsv("raw_data/species_with_atleast_2genomes.list", col_names=F)

Rows: 77107 Columns: 6                                                                
── Column specification ──────────────────────────────────────────────────────────────
Delimiter: "\t"
chr (6): X1, X2, X3, X4, X5, X6

db <-read_tsv("processed_data/mge_bins_per_genome_final.txt", col_names = T)

Rows: 76902 Columns: 14                                                               
── Column specification ──────────────────────────────────────────────────────────────
Delimiter: "\t"
chr (6): Genome, specI, kingdom, phylum, class, genus
dbl (8): IS_Tn, Phage, Phage_like, CE, Integron, MI, Hotspot, Cellular

gs <-read_tsv("raw_data/genome_size.txt", col_names = T)

Rows: 84022 Columns: 3                                                                
── Column specification ──────────────────────────────────────────────────────────────
Delimiter: "\t"
chr (2): strain, SpecI_id_v3
dbl (1): ProteinGeneCounts

class_tree <- read.tree("raw_data/progenomes2_class_tree.nwk")

Es un archivo Newick (.nwk).

glist <- read_tsv("raw_data/genome_status_supplementary_tableS2.txt", col_names = T)

Rows: 84022 Columns: 7                                                                
── Column specification ──────────────────────────────────────────────────────────────
Delimiter: "\t"
chr (5): genome, assembly_status, Marker_lineage, genome_quality, species_with_atl...
dbl (2): Completeness, Contamination

Figura 4

data_mf <- read_tsv("raw_data/recombinase_hgt_cluster_master_file.txt", col_names = F)

Rows: 1807030 Columns: 9                                              0s
── Column specification ──────────────────────────────────────────────
Delimiter: "\t"
chr (9): X1, X2, X3, X4, X5, X6, X7, X8, X9

mge_bins <- read_tsv("raw_data/mge_bins_final.txt",col_names = T)

Rows: 1953569 Columns: 15                                             
── Column specification ──────────────────────────────────────────────
Delimiter: "\t"
chr  (2): island, mgeR
dbl (13): IS_Tn, Phage, Phage_like, CE, Integron, MI, Hotspot, UC,...

tax <- read_tsv("raw_data/hgt_species.list", col_names = F)

Rows: 61959 Columns: 6                                                
── Column specification ──────────────────────────────────────────────
Delimiter: "\t"
chr (6): X1, X2, X3, X4, X5, X6

class_tree <- read.tree("raw_data/progenomes2_class_tree.nwk")

Rows: 61959 Columns: 6                                                
── Column specification ──────────────────────────────────────────────
Delimiter: "\t"
chr (6): X1, X2, X3, X4, X5, X6

glist <- read_tsv("raw_data/genome_status_supplementary_tableS2.txt", col_names = T)

Rows: 84022 Columns: 7                                                0s
── Column specification ──────────────────────────────────────────────
Delimiter: "\t"
chr (5): genome, assembly_status, Marker_lineage, genome_quality, ...
dbl (2): Completeness, Contamination

Referencias

Clone an existing GitHub project to new RStudio project - explicacion
Conectar a GitHub con SSH - explicacion