Una computadora almacena cada letra y símbolo de texto como una secuencia de bits - unos y ceros binarios . Sistemas de codificación del alfabeto , puntuacion y otros símbolos emitidos durante el siglo 20, que conduce a ANSI y Unicode. ANSI , que surgió antes, utiliza menos bits , pero tiene capacidad para los idiomas no europeos con dificultad; Unicode abarca muchos caracteres asiáticos y de Oriente Medio , así como el conjunto romano utilizado para inglés y otros idiomas europeos. Tamaño
El conjunto ANSI codifica caracteres con ocho bits o un byte de datos , por lo que maneja hasta 256 símbolos diferentes a la vez. El sistema Unicode utiliza 16 bits, o dos bytes , con capacidad para 256 x 256 o 65 536 símbolos. Además , Unicode tiene 17 aviones de codificación , lo que permite un total de más de 1 millón de símbolos . Para idiomas con caracteres no romanos , ANSI utiliza un número de 16 bits adicional llamado una página de códigos . Una computadora almacena este número una vez , no con todos los personajes , dando mayor flexibilidad al sistema de codificación ANSI .
Idiomas
ANSI conjunto conocido como "Windows 1252 " donde " 1252" se refiere al número de página de códigos , es el más popular , cubriendo inglés y varios idiomas europeos. Otras páginas de códigos definen otros idiomas, como el 1254 de turco y 1255 para el hebreo . Unicode, debido a su mayor tamaño de la fuente , sí tiene capacidad para más símbolos , incluidos los de Tailandia , Braille , Cherokee y persa antiguo . Creció
Plataformas
ANSI desde el sistema operativo Windows de Microsoft , después de haber sido desarrollado por Microsoft e IBM. Investigadores de Apple y Xerox colaboraron en Unicode , que más tarde adoptó Microsoft . En el momento de la publicación , Windows compatible con ANSI y Unicode. Mac OS X usa su propio código de caracteres de ocho bits , similar a ANSI, y también es compatible con Unicode. El sistema operativo Linux también proporciona soporte Unicode.
Clasificación
El conjunto de caracteres Roman ha permitido tradicionalmente a los usuarios organizar y clasificar la información utilizando el orden de sus personajes . Códigos ANSI siguieron el orden de los caracteres romanos , por lo que el valor de una "T " es mayor que la de una "B ", haciendo que las tareas informáticas tales como la clasificación casi automática . Aunque Unicode también puede ordenar la información sobre la base de orden de los caracteres , que es un proceso más complejo . Los primeros 127 caracteres Unicode incluyen letras romanas mayúsculas y minúsculas , lo que permite la clasificación de inglés y otros idiomas europeos. Cada lengua no romana tiene su propia fórmula de ordenación o algoritmo.