Un archivo de formato FASTA - contiene una o más secuencias de nucleótidos en el ADN . El formato FASTA se originó con el paquete de software FASTA para la secuenciación de ADN , aunque se ha convertido en un formato estándar para la representación de las secuencias de ADN en la bioinformática . FASTA es un formato simple que hace que las secuencias fáciles de analizar el uso de lenguajes de scripting como Perl y Python. Descripción
La base de un archivo es una línea que comienza con el carácter ">" , seguido de texto que identifica el origen de la secuencia. La línea de cabecera es típicamente menos de 80 caracteres. La línea que sigue la línea de encabezado contiene una serie de personajes que representan los nucleótidos en el ADN o los residuos de aminoácidos en una secuencia peptídica.
Permiten caracteres de ADN
Sólo se permiten caracteres significativos como parte de una secuencia FASTA . Las secuencias pueden consistir en A, C , T, G o U , que corresponde a los nucleótidos adenosina , citosina , timidina , guanina o uracilo , respectivamente . Sin embargo , la identidad exacta de las secuencias de nucleótidos no puede estar siempre presente de la secuenciación . FASTA también contiene códigos que representan los nucleótidos posibles cuando la incertidumbre está presente . El código de N se usa cuando hay una determinación puede ser hecha y X cuando el nucleótido está enmascarado por otras moléculas . El " - " código se utiliza para representar una diferencia de longitud indeterminada
permiten caracteres péptidos
Código alfanumérico también puede ser usado para representar . los aminoácidos 24 presentes en una secuencia de péptido . Si un péptido que no se puede determinar , se utiliza el código de X , de manera similar a una secuencia de ADN . Un " * " se utiliza para indicar el terminal o secuencia de parada de la traducción de un péptido . A "- " . También se utiliza para representar una brecha en la secuencia de datos para los péptidos
Otra información
El NCBI establece una secuencia de ID estándar o SeqID , para su uso en líneas de cabecera FASTA , aunque no existe una norma definitiva para su inclusión en la línea de cabecera FASTA . Un archivo que contiene múltiples secuencias FASTA se conoce como un archivo de múltiples FASTA . FASTA archivos tengan la extensión ". Fasta , " " . Fna ", " . Ffn , " . " FAA ", " . Frn " o " . Fas . " < Br >