flowchart TD
A[Lecturas crudas FASTQ]:::input --> B[Filtrado y truncamiento]
B --> C[Modelado de errores]
C --> D[Inferencia de ASVs]
D --> E[Unión de lecturas paired-end]
E --> F[Remoción de quimeras]
F --> G[Asignación taxonómica]
G --> H[Tabla de ASVs + taxonomía]:::output
classDef input fill:#dbeafe,stroke:#3b82f6,color:#1e3a5f
classDef output fill:#d1fae5,stroke:#10b981,color:#064e3b
Introducción al pipeline DADA2
¿Qué es DADA2?
DADA2 es un paquete de R que transforma lecturas crudas de secuenciación en una tabla de variantes de secuencias de amplicón (ASVs) con asignación taxonómica. A diferencia de los métodos tradicionales basados en OTUs (agrupamiento por similitud al 97%), DADA2 resuelve secuencias a resolución de nucleótido único, distinguiendo variantes biológicas reales de errores de secuenciación.
Visión general del flujo de trabajo
¿Qué hace cada paso?
1. Filtrado y truncamiento
Elimina lecturas de baja calidad y trunca las secuencias en el punto donde la calidad decae. También remueve secuencias con bases ambiguas (N).
2. Modelado de errores
DADA2 aprende las tasas de error específicas de tu corrida de secuenciación. Este modelo es la base para distinguir errores técnicos de variación biológica real.
3. Inferencia de ASVs (denoising)
Usando el modelo de error, corrige errores de secuenciación y determina las secuencias biológicas reales presentes en cada muestra. Este es el paso central del pipeline.
4. Unión de lecturas paired-end
Ensambla las lecturas forward (R1) y reverse (R2) usando la región de solapamiento para reconstruir el amplicón completo.
5. Remoción de quimeras
Detecta y elimina secuencias quiméricas — artefactos de PCR formados por la unión de fragmentos de dos secuencias parentales diferentes.
6. Asignación taxonómica
Asigna identidad taxonómica (desde reino hasta especie) a cada ASV comparándola contra una base de datos de referencia.
¿Qué produce el pipeline?
| Resultado | Descripción |
|---|---|
| Tabla de ASVs | Matriz de abundancias (muestras × secuencias únicas) |
| Tabla de taxonomía | Asignación taxonómica por ASV con valores de confianza |
| Tabla de seguimiento | Número de lecturas retenidas en cada paso del pipeline |
| Gráficos de diagnóstico | Perfiles de calidad, tasas de error, distribución de longitudes |
Estos resultados se guardan en final_data/ y son la entrada para el análisis ecológico con phyloseq.