UTF |
Singkatan dari "Unicode Transformation Format" UTF mengacu pada beberapa jenis pengkodean karakter Unicode, termasuk UTF-7, UTF-8, UTF-16, dan UTF-32.
- UTF-7 - menggunakan 7 bit untuk setiap karakter. Itu dirancang untuk mewakili karakter ASCII dalam pesan email yang memerlukan pengkodean Unicode.
- UTF-8 - jenis pengkodean Unicode yang paling populer. Ini menggunakan satu byte untuk huruf dan simbol bahasa Inggris standar, dua byte untuk karakter Latin dan Timur Tengah tambahan, dan tiga byte untuk karakter Asia. Karakter tambahan dapat direpresentasikan menggunakan empat byte. UTF-8 kompatibel dengan ASCII, karena 128 karakter pertama dipetakan ke nilai yang sama.
- UTF-16 - perpanjangan dari pengkodean Unicode "UCS-2", yang menggunakan dua byte untuk mewakili 65.536 karakter. Namun, UTF-16 juga mendukung empat byte untuk karakter tambahan hingga satu juta.
- UTF-32 - pengkodean multibyte yang mewakili setiap karakter dengan 4 byte.
Sebagian besar teks dalam dokumen dan halaman web dikodekan menggunakan salah satu pengkodean UTF di atas. Banyak program pengolah kata tidak mengizinkan Anda untuk melihat pengkodean karakter dari dokumen yang terbuka, meskipun beberapa menampilkan pengkodean di bagian bawah jendela dokumen atau di dalam properti file. Jika Anda ingin melihat jenis pengkodean karakter yang digunakan oleh halaman web, Anda dapat memilih View → View Source untuk melihat HTML halaman. Pengkodean karakter, jika ditentukan, akan berada di bagian header, di dekat bagian atas HTML. Laman yang menggunakan enkode UTF-8 dapat menyertakan salah satu cuplikan teks berikut di bawah ini, bergantung pada versi HTML.
XHTML : <meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
HTML 5 : <meta charset="UTF-8">