# Define la carpeta donde quieres guardar
<- "data"
carpeta_destino
# > raw_data
# Define el nombre que quieres para el archivo
<- "processed_data.tar.gz"
nombre_archivo # Construye la ruta completa
<- file.path(carpeta_destino, nombre_archivo)
ruta_completa
# URL de descarga directa
<- "https://git.embl.de/khedkar/promge/-/raw/main/raw_data.tar.gz"
url
# Aumentar timeout
options(timeout = 600) # 10 minutos
# Descarga
download.file(url, destfile = ruta_completa, mode = "wb")
# > Proccessed_data
# Define el nombre que quieres para el archivo
<- "processed_data.tar.gz"
nombre_archivo
# Construye la ruta completa
<- file.path(carpeta_destino, nombre_archivo)
ruta_completa
# URL de descarga directa
<- "https://git.embl.de/khedkar/promge/-/raw/main/processed_data.tar.gz"
url
# Descarga
download.file(url, destfile = ruta_completa, mode = "wb")
Sobre los datos
Creado por: Johana Castelán
Clonar el repositorio desde R
Puedes descargar el repositorio completo empleando git clone
y el link SSH, solo si ya cuentas con la llave de SSH enlazado a tu github.
git clone git@github.com:ISCB-RSG-MEXICO/Reprohack2025_RLadiesMorelia_RSGMexico.git
Descargar los datos
De igual manera, podemos descargar los archivos necesarios a nuestra computadora y colocarlos en la carpeta “data”
Note
Los archivos pesan 94.2 Mb y 2280.8 Mb de manera comprimida, processed_data.tar.gz
y raw_data.tar.gz
, respectivamente.
Descomprimir los archivos desde R
library(R.utils)
untar('data/processed_data.tar.gz')
untar('data/raw_data.tar.gz')
Importar datos en R
Figura 2
Datos de la Figura 2A:
<- read_tsv("processed_data/solitary_mge_bins_final.txt", col_names = F) mge_solitary
Rows: 1647630 Columns: 15 s
── Column specification ───────────────────────────────────
Delimiter: "\t"
chr (2): X10, X15
dbl (13): X1, X2, X3, X4, X5, X6, X7, X8, X9, X11, X12,...
Datos de la Figura 2B:
<- read_tsv("processed_data/mge_bins_per_genome_final.txt", col_names = T) mge_pg
Rows: 76902 Columns: 14
── Column specification ───────────────────────────────────────────────────────────────
Delimiter: "\t"
chr (6): Genome, specI, kingdom, phylum, class, genus
dbl (8): IS_Tn, Phage, Phage_like, CE, Integron, MI, Hotspot, Cellular
Figura 3
<- read_tsv("raw_data/species_with_atleast_2genomes.list", col_names=F) tax
Rows: 77107 Columns: 6
── Column specification ──────────────────────────────────────────────────────────────
Delimiter: "\t"
chr (6): X1, X2, X3, X4, X5, X6
<-read_tsv("processed_data/mge_bins_per_genome_final.txt", col_names = T) db
Rows: 76902 Columns: 14
── Column specification ──────────────────────────────────────────────────────────────
Delimiter: "\t"
chr (6): Genome, specI, kingdom, phylum, class, genus
dbl (8): IS_Tn, Phage, Phage_like, CE, Integron, MI, Hotspot, Cellular
<-read_tsv("raw_data/genome_size.txt", col_names = T) gs
Rows: 84022 Columns: 3
── Column specification ──────────────────────────────────────────────────────────────
Delimiter: "\t"
chr (2): strain, SpecI_id_v3
dbl (1): ProteinGeneCounts
<- read.tree("raw_data/progenomes2_class_tree.nwk") class_tree
Es un archivo Newick (.nwk).
<- read_tsv("raw_data/genome_status_supplementary_tableS2.txt", col_names = T) glist
Rows: 84022 Columns: 7
── Column specification ──────────────────────────────────────────────────────────────
Delimiter: "\t"
chr (5): genome, assembly_status, Marker_lineage, genome_quality, species_with_atl...
dbl (2): Completeness, Contamination
Figura 4
<- read_tsv("raw_data/recombinase_hgt_cluster_master_file.txt", col_names = F) data_mf
Rows: 1807030 Columns: 9 0s
── Column specification ──────────────────────────────────────────────
Delimiter: "\t"
chr (9): X1, X2, X3, X4, X5, X6, X7, X8, X9
<- read_tsv("raw_data/mge_bins_final.txt",col_names = T) mge_bins
Rows: 1953569 Columns: 15
── Column specification ──────────────────────────────────────────────
Delimiter: "\t"
chr (2): island, mgeR
dbl (13): IS_Tn, Phage, Phage_like, CE, Integron, MI, Hotspot, UC,...
<- read_tsv("raw_data/hgt_species.list", col_names = F) tax
Rows: 61959 Columns: 6
── Column specification ──────────────────────────────────────────────
Delimiter: "\t"
chr (6): X1, X2, X3, X4, X5, X6
<- read.tree("raw_data/progenomes2_class_tree.nwk") class_tree
Rows: 61959 Columns: 6
── Column specification ──────────────────────────────────────────────
Delimiter: "\t"
chr (6): X1, X2, X3, X4, X5, X6
<- read_tsv("raw_data/genome_status_supplementary_tableS2.txt", col_names = T) glist
Rows: 84022 Columns: 7 0s
── Column specification ──────────────────────────────────────────────
Delimiter: "\t"
chr (5): genome, assembly_status, Marker_lineage, genome_quality, ...
dbl (2): Completeness, Contamination
Referencias
- Clone an existing GitHub project to new RStudio project - explicacion
- Conectar a GitHub con SSH - explicacion