Bioinformática es la aplicación de técnicas informáticas en el campo de la biología. Los objetivos de la bioinformática son ayudar a científicos de la vida en la organización de los datos biológicos y el desarrollo de las herramientas informáticas necesarias para el descubrimiento de nuevas hipótesis científicas. Técnicas de clasificación , también conocidas como técnicas de agrupamiento , son importantes en la bioinformática , ya que permiten la separación de los diversos datos biológicos con atributos similares en grupos distintos . Historia
El tamaño de los datos biológicos ha ido creciendo de manera exponencial, con la duplicación de la información observada cada 15 meses. Como resultado , la informática y las técnicas informáticas se utilizan intensivamente en la tramitación y gestión de los datos biológicos . El concepto más fundamental en la bioinformática es que los datos más biológicos comparten características similares y se puede separar en grupos . Por ejemplo , los genes de un organismo se pueden clasificar en sus grupos funcionales o las vías metabólicas . Las proteínas también se pueden clasificar sobre la base de los genes que se expresan . Técnicas de clasificación o agrupación son necesarias en el manejo de grandes bases de datos de los datos genéticos y biológicos . Hay dos tipos principales de técnicas de clasificación de la bioinformática : . Las técnicas de clasificación jerárquica y el k -Means
clasificación jerárquica
La técnica de clasificación jerárquica organiza los datos biológicos en un estructura de datos de árbol. Los genes se expresan como nodos en el árbol , mientras que cada sub - árbol de nodos representa un grupo o agrupación de genes . El árbol puede ser cualquiera de sus raíces o sin raíces . Un árbol con raíz se define como un árbol con un solo nodo en la parte superior . Por el contrario , un árbol sin raíz tiene varios nodos más altas .
K -medias Clasificación
técnica de clasificación más complicada es la clasificación k -medias , que intenta para encontrar un conjunto de centros que reduzcan al mínimo la distorsión de error cuadrático entre los conjuntos de datos en el espacio multidimensional . Un grupo se clasifica agrupando puntos relacionados a su centro más cercano. El algoritmo de Lloyd se utiliza a menudo en la técnica de clasificación k -medias . En este algoritmo , los puntos de datos están dispuestas al azar en grupos separados, que posteriormente son optimizados para producir las distorsiones de error cuadrados mínimos locales .
Importancia
Después de proteínas relacionadas han sido clasificadas en grupos similares , ciencias de la vida se pueden utilizar esa información para predecir las propiedades de ciertas proteínas menos estudiadas . Esto es también aplicable a otros aspectos de la estructura de las proteínas . Otro uso de técnicas de clasificación es resolver el problema de la determinación del árbol de la evolución de ciertos organismos sobre la base de sus secuencias genéticas . El árbol de la evolución se construye a partir de la secuencia de ADN del organismo utilizando jerárquico o de k -medias técnicas de clasificación .
Consideraciones
técnica de clasificación jerárquica es relativamente simple y eficaz modo de agrupar los datos biológicos . En contraste , no existe ningún algoritmo eficiente en el momento de la escritura que es capaz de llevar a cabo eficazmente la técnica de clasificación k -medias como el tamaño de los datos aumenta biológicos . Esto sugiere que una gran potencia de cálculo es a menudo necesaria para llevar a cabo la clasificación k -medias , que es un factor importante a considerar al elegir la técnica de clasificación para su uso en aplicaciones de la bioinformática .