Más del 20 por ciento de las secuencias genómicas de no primates de las principales bases de datos están contaminadas con ADN humano. El estudio, llevado a cabo por un equipo de la Universidad de Connecticut encabezado por Mark Longo, se publica en PLoS ONE. Este resultado vuelve a señalar la importancia tanto de las medidas de prevención de la contaminación a la hora de secuenciar genomas como del control de la contaminación potencial en los genomas tomados de las bases de datos públicas.
Hace unos días se ha formado un revuelo en distintos ámbitos científicos por la publicación de un informe en mBio en el que se afirmaba haber detectado una transferencia horizontal de genes entre los humanos y gonorrea, con las implicaciones que ello tiene desde el punto de vista evolutivo (más información aquí, aquí y aquí). ¿Podríamos estar ante un caso de contaminación de los datos por ADN humano?
La contaminación puede llegar a una secuencia genómica en varias de las fases de la secuenciación. Podría provenir de bacterias que transporte el aire y que aterricen en la muestra, o incluso fragmentos de ADN que se hayan quedado en los reactivos tras la esterilización. Pero probablemente la fuente de contaminación más común sea el propio científico. Sólo hace falta que una célula de la piel caiga en una muestra antes de la amplificación.
Mark Longo estaba buscando secuencias conservadas en las bases de datos de genomas y encontró que, sorprendentemente, había secuencias que se repetían en distintas especies. Sin embargo, no pudo replicar los datos en el laboratorio en ningún caso, lo que sugería que los genomas de las bases de datos podían estar contaminados. Vistos los resultados, a continuación decidió comprobar todos los genomas de no primates conservados en cuatro bases de datos públicas, en concreto las ubicadas en: la Universidad de California en Santa Cruz, el GenBank del Centro Nacional para la Información Biotecnológica, el Instituto Genómico Conjunto y Ensembl (los cuatro centros están en los Estados Unidos). Buscó específicamente secuencias repetitivas humanas conocidas como elementos AluY.
De las 2.057 secuencias comprobadas, 454 contenían esta secuencia de ADN humano, el 22%, un nivel de contaminación como para preocuparse. Y esta es sólo la contaminación de fuentes humanas, ¿cuanta habrá de otras especies comunes en los laboratorios como E. coli? [Los pocos (falsos) positivos de presencia de E. coli en alimentos en el laboratorio de la empresa del que esto escribe han resultado ser contaminaciones de las muestras por manipulación inadecuada durante su toma y/o su preparación para la PCR]
Esta frecuencia de contaminación humana hace que se hagan imprescindibles mayores controles de calidad, lo que implica recomprobaciones de secuencias para confirmar los resultados. Pero también significa mayores problemas en los estudios de las secuencias humanas: encontrar un elemento Alu humano en el genoma de un pez es fácil, encontrar una contaminación humana en una muestra humana no es tan sencillo.
Por si alguien duda de la importancia de la calidad de los datos, imaginemos que alguien tuviese que tomar decisiones sobre la salud de una persona basándose en su genoma sabiendo que tiene una probabilidad del 20% de que los resultados estén contaminados.
Referencia:
Longo, M., O'Neill, M., & O'Neill, R. (2011). Abundant Human DNA Contamination Identified in Non-Primate Genome Databases PLoS ONE, 6 (2) DOI: 10.1371/journal.pone.0016410
3 comentarios:
Y no digamos la repercusión en estudios basados en comparación de secuencias cuando se tienen datos que contienen contaminaciones entre microorganismos que difieren a nivel de cepa o ecotipo, así resulta imposible hacer comparaciones tan "finas"
Madre mía, cuando se enteren los de CSI...
Jejeje. En serio, muy interesante. A mí siempre me ha parecido que la calidad de las muestras tiene mayor importancia de lo que se le suele dar.
Saludos,
David.
Estas conclusiones son brutales. Si ya se estaba viendo que es un poco arriesgado fiarse de secuencias concretas de GenBank y bases de datos similares porque muchas veces las secuencias son de muestras que no se han identificado correctamente (recuerdo concretamente un estudio que hicieron sobre hongos), ¿somos conscientes de las consecuencias que puede tener tal grado de incertidumbre con estudios genómicos en los que ni siquiera se sabe con certeza qué se está secuenciando y por lo tanto los errores son virtualmente indetectables? Muy aguda tu observación sobre el caso de el ADN humano de la gonorrea. Un 20% es muchísimo. Muy interesante.
Además me ha hecho ilusión ver que el estudio lo ha hecho un tío de la UConn, de la que guardo muy buenos recuerdos. La cosa es que el tal Mark me suena de vista, pero nada más.
Publicar un comentario