Título: | Extracción automática de tópicos en biología a partir de la literatura científica |
Autores: | Nogales Cadenas, Rubén |
Tipo de documento: | texto impreso |
Fecha de publicación: | 2007 |
Dimensiones: | application/pdf |
Nota general: |
cc_by_nc info:eu-repo/semantics/openAccess |
Idiomas: | |
Palabras clave: | Estado = No publicado , Materia = Ciencias: Informática: Bases de datos , Tipo = Trabajo Fin de Máster |
Resumen: |
Los recientes avances en Biología Molecular y en Informática son responsables de la acumulación de muchos y cada vez más complejos tipos de datos. Este incremento se ha visto también reflejado en el elevado número de publicaciones relacionadas. Todo esto se debe a los experimentos a gran escala que ahora se pueden llevar a cabo en este tipo de investigación. Genomas completos pueden ser secuenciados en meses o semanas, métodos computacionales permiten la identificación de miles de genes en el DNA secuenciado y se han desarrollado herramientas que analizan automáticamente las propiedades de los genes y las proteínas. No obstante, no sólo los resultados de los distintos experimentos sirven para encontrar información biológica, actualmente es posible explorar la literatura biomédica en busca de evidencias biológicas. Sin embargo, ese proceso de extracción de información a partir de las publicaciones es, en su gran mayoría, manual. Un grupo de anotadores se encarga de leer todos los artículos científicos, extraer evidencias biológicas y almacenarlas en las bases de datos y ontologías biológicas públicas accesibles a través de internet. Debido a la gran acumulación de documentos científicos, se necesita desarrollar métodos y herramientas que automaticen el proceso de extracción de información. En este contexto se propone un método de extracción de información biológica a partir de la literatura biomédica basado en la extracción de anotaciones enriquecidas en términos encontrados en publicaciones y bases de datos. Un posterior análisis estadístico, utilizando varios test como el de ?2 o el de la distribución hipergeométrica y corrigiendo el problema de la hipoótesis múltiple, nos permitirá evaluar el nivel de relevancia de las anotaciones recuperadas. Esta metodología permite integrar datos obtenidos de la literatura con otras fuentes de información como anotaciones funcionales o reguladores transcripcionales y es de gran utilidad para el descubrimiento de asociaciones entre información biológica de los genes y proteínas y documentos o conjuntos de palabras. |
En línea: | https://eprints.ucm.es/id/eprint/10280/1/RubenNogales.pdf |
Ejemplares
Estado |
---|
ningún ejemplar |