Resumen:
|
En los últimos años se han desarrollado técnicas en el campo de la biología que han revolucionado las áreas de la genómica y la proteómica. Estas técnicas, entre las que se encuentran la secuenciación masiva y la proteómica de Shotgun, nos están permitiendo un conocimiento mucho más profundo del funcionamiento de las células, pudiendo ver qué ARN mensajero y proteínas están presentes en un momento puntual de las mismas, además de conocer mejor algunos mecanismos de regulación. Con el desarrollo de estas tecnologías, se están generando más datos de los que es posible procesar en una cantidad razonable de tiempo. Es necesario el desarrollo de nuevas herramientas que manejen este tipo de datos de una forma eficiente, haciendo uso de técnicas de computación de altas prestaciones que incluyan el uso de granjas de computación, computación paralela y gestión de plataformas virtualizadas. En la presente tesis se pretende realizar un abordaje integral del análisis masivo de datos provenientes de estastécnicas con herramientas eficientes, empezando por el procesamiento de los datos en crudo y obteniendo información de más alto nivel sobre expresión de genes y proteínas, enriqueciéndola con información relacionada de bases de datos y ontologías de libre acceso, para finalmente generar informes que reflejen el funcionamiento celular asociado a toda esta información. También incluye el desarrollo de herramientas generadoras de hipótesis en el ámbito de la regulación génica, que sirvan a biólogos experimentalistas para el desarrollo de nuevos experimentos de validación. Este abordaje se ha concretado en el desarrollo de diferentes metodologías y herramientas. Primeramente se han desarrollado varios flujos de trabajo para análisis de RNA-Seq, Microarrays y proteómica de Shotgun de diferentes proyectos y bases de datos públicas tales como ENCODE, Human Proteome Project, Illumina Human Body Map o the Cancer Cell Line Encyclopedia, enfocados para realizar estudios proteogenómicos, permitiendo detectar con exactitud los genes expresados sin necesidad de un control, o mezclar datos transcriptómicos y proteómicos para poder realizar una mejor detección de proteínas...
|