
Un estudio realizado por un equipo de investigadores de Human Longevity, Inc. (HLI) descubrió que los datos de secuenciación del genoma completo y el aprendizaje automático se pueden usar en la predicción de rostros individuales y otros rasgos físicos.
Ejemplos de caras reales (izquierda) y pronosticadas (derecha) del estudio Human Longevity que predice caras y otros rasgos físicos a partir de datos de secuenciación del genoma completo.
Christoph Lippert, Ph.D., autor principal, y J. Craig Venter, Ph.D., autor principal comentaron que este estudio ofrece métodos innovadores para la ciencia forense; y tiene consecuencias significativas para la desidentificación, la privacidad de los datos y el consentimiento suficientemente informado. Llegaron a la conclusión de que se requiere una deliberación pública considerablemente mayor a medida que se crean y almacenan progresivamente más genomas en bases de datos públicas.
El estudio aprobado por el IRB estuvo compuesto por 1.061 participantes, con edades comprendidas entre los 18 y los 82 años, de diferentes orígenes étnicos, y cuyos genomas fueron secuenciados a una profundidad mínima de 30x. Los datos de fenotipo de estos participantes se recopilaron en forma de color de ojos y piel, altura, edad, peso, imágenes faciales en 3D y muestras de voz.
Los investigadores predijeron con precisión el color de la piel, el color de los ojos y el sexo, pero enfrentaron dificultades al predecir otros rasgos genéticos complejos. Estos investigadores requirieron grandes cohortes para mejorar la eficiencia de predicción, aunque sus modelos predictivos fueron efectivos.
El equipo ha desarrollado un algoritmo novedoso, conocido como algoritmo de máxima entropía, para encontrar la combinación óptima de modelos predictivos con el fin de hacer coincidir los datos de secuenciación del genoma completo con los datos demográficos y fenotípicos. En promedio, 8 de cada 10 participantes de diferentes orígenes étnicos y 5 de cada 10 participantes afroamericanos o europeos fueron identificados correctamente por este algoritmo.
Venter, cofundador de HLI, declaró: “Nos propusimos hacer este estudio para demostrar que su genoma codifica todo lo que lo convierte en usted. Esta es claramente una prueba de concepto con una cohorte limitada, pero creemos que a medida que aumentamos el número de personas en este estudio y en la base de datos HLI a cientos de miles, podremos predecir con precisión todo lo que se puede predecir a partir de los genomas de los individuos. .”
Además, comentó que la comunidad científica, así como el público en general, no estaban demasiado preocupados por el requisito de políticas y salvaguardas para la privacidad de los datos genómicos de un individuo y enfatizó mejores soluciones técnicas, discusión continua y análisis en profundidad.
Según Lippert, científico de datos de HLI, este estudio indica la eficiencia de las técnicas de imagen utilizadas para evaluar los rasgos de un mayor número de personas. El aprendizaje automático juega un papel vital en el descubrimiento científico y permite una interpretación de datos completamente automatizada.