Introducción al pipeline DADA2

¿Qué es DADA2?

DADA2 es un paquete de R que transforma lecturas crudas de secuenciación en una tabla de variantes de secuencias de amplicón (ASVs) con asignación taxonómica. A diferencia de los métodos tradicionales basados en OTUs (agrupamiento por similitud al 97%), DADA2 resuelve secuencias a resolución de nucleótido único, distinguiendo variantes biológicas reales de errores de secuenciación.

Visión general del flujo de trabajo

flowchart TD
    A[Lecturas crudas FASTQ]:::input --> B[Filtrado y truncamiento]
    B --> C[Modelado de errores]
    C --> D[Inferencia de ASVs]
    D --> E[Unión de lecturas paired-end]
    E --> F[Remoción de quimeras]
    F --> G[Asignación taxonómica]
    G --> H[Tabla de ASVs + taxonomía]:::output

    classDef input fill:#dbeafe,stroke:#3b82f6,color:#1e3a5f
    classDef output fill:#d1fae5,stroke:#10b981,color:#064e3b

¿Qué hace cada paso?

1. Filtrado y truncamiento

Elimina lecturas de baja calidad y trunca las secuencias en el punto donde la calidad decae. También remueve secuencias con bases ambiguas (N).

2. Modelado de errores

DADA2 aprende las tasas de error específicas de tu corrida de secuenciación. Este modelo es la base para distinguir errores técnicos de variación biológica real.

3. Inferencia de ASVs (denoising)

Usando el modelo de error, corrige errores de secuenciación y determina las secuencias biológicas reales presentes en cada muestra. Este es el paso central del pipeline.

4. Unión de lecturas paired-end

Ensambla las lecturas forward (R1) y reverse (R2) usando la región de solapamiento para reconstruir el amplicón completo.

5. Remoción de quimeras

Detecta y elimina secuencias quiméricas — artefactos de PCR formados por la unión de fragmentos de dos secuencias parentales diferentes.

6. Asignación taxonómica

Asigna identidad taxonómica (desde reino hasta especie) a cada ASV comparándola contra una base de datos de referencia.

¿Qué produce el pipeline?

Resultado	Descripción
Tabla de ASVs	Matriz de abundancias (muestras × secuencias únicas)
Tabla de taxonomía	Asignación taxonómica por ASV con valores de confianza
Tabla de seguimiento	Número de lecturas retenidas en cada paso del pipeline
Gráficos de diagnóstico	Perfiles de calidad, tasas de error, distribución de longitudes

Estos resultados se guardan en final_data/ y son la entrada para el análisis ecológico con phyloseq.