Metabarcoding de comunidades de eucariontes
  • Sesiones
  • Lecturas recomendadas
  1. Día 2
  2. Introducción al pipeline DADA2
  • Día 1
    • Conexión a Zoom
    • Conexión al servidor
  • Día 2
    • Introducción a Linux y R
    • Introducción al pipeline DADA2
    • Nuestros datos: eDNA de peces del Golfo de California
    • Clonación de repositorio Github
    • Preparación del entorno
  • Día 3
    • Archivos FASTQ: estructura y organización
    • Control de calidad y recorte de primers con Cutadapt
    • DADA2 — Filtrado inicial
  • Día 4
    • Dada2 - Dereplicación e Inferencia de Errores
    • Dada2 - Unión de lecturas paired-end
    • Dada2 - Remoción de quimeras y seguimiento de lecturas
    • Dada2 - Asignación taxonómica y guardado de resultados
  • Día 5
    • Análisis ecológico de comunidades de peces
    • OTUs: agrupamiento por similitud con VSEARCH
    • Detección y remoción de contaminantes con decontam
    • Bases de datos de referencia personalizadas
  • Lecturas recomendadas
    • Referencias
  1. Día 2
  2. Introducción al pipeline DADA2

Introducción al pipeline DADA2

¿Qué es DADA2?

DADA2 es un paquete de R que transforma lecturas crudas de secuenciación en una tabla de variantes de secuencias de amplicón (ASVs) con asignación taxonómica. A diferencia de los métodos tradicionales basados en OTUs (agrupamiento por similitud al 97%), DADA2 resuelve secuencias a resolución de nucleótido único, distinguiendo variantes biológicas reales de errores de secuenciación.


Visión general del flujo de trabajo

flowchart TD
    A[Lecturas crudas FASTQ]:::input --> B[Filtrado y truncamiento]
    B --> C[Modelado de errores]
    C --> D[Inferencia de ASVs]
    D --> E[Unión de lecturas paired-end]
    E --> F[Remoción de quimeras]
    F --> G[Asignación taxonómica]
    G --> H[Tabla de ASVs + taxonomía]:::output

    classDef input fill:#dbeafe,stroke:#3b82f6,color:#1e3a5f
    classDef output fill:#d1fae5,stroke:#10b981,color:#064e3b


¿Qué hace cada paso?

1. Filtrado y truncamiento

Elimina lecturas de baja calidad y trunca las secuencias en el punto donde la calidad decae. También remueve secuencias con bases ambiguas (N).

2. Modelado de errores

DADA2 aprende las tasas de error específicas de tu corrida de secuenciación. Este modelo es la base para distinguir errores técnicos de variación biológica real.

3. Inferencia de ASVs (denoising)

Usando el modelo de error, corrige errores de secuenciación y determina las secuencias biológicas reales presentes en cada muestra. Este es el paso central del pipeline.

4. Unión de lecturas paired-end

Ensambla las lecturas forward (R1) y reverse (R2) usando la región de solapamiento para reconstruir el amplicón completo.

5. Remoción de quimeras

Detecta y elimina secuencias quiméricas — artefactos de PCR formados por la unión de fragmentos de dos secuencias parentales diferentes.

6. Asignación taxonómica

Asigna identidad taxonómica (desde reino hasta especie) a cada ASV comparándola contra una base de datos de referencia.


¿Qué produce el pipeline?

Resultado Descripción
Tabla de ASVs Matriz de abundancias (muestras × secuencias únicas)
Tabla de taxonomía Asignación taxonómica por ASV con valores de confianza
Tabla de seguimiento Número de lecturas retenidas en cada paso del pipeline
Gráficos de diagnóstico Perfiles de calidad, tasas de error, distribución de longitudes

Estos resultados se guardan en final_data/ y son la entrada para el análisis ecológico con phyloseq.

Introducción a Linux y R
Nuestros datos: eDNA de peces del Golfo de California

© Dra. Tania Valdivia Carrillo — Todos los derechos reservados