Beranda » bagaimana » Apa itu Pengkodean Karakter Seperti ANSI dan Unicode, dan Bagaimana Perbedaannya?

    Apa itu Pengkodean Karakter Seperti ANSI dan Unicode, dan Bagaimana Perbedaannya?

    ASCII, UTF-8, ISO-8859 ... Anda mungkin telah melihat monikers aneh ini berkeliaran, tetapi apa artinya sebenarnya? Baca terus saat kami menjelaskan apa itu pengkodean karakter dan bagaimana akronim ini berhubungan dengan teks biasa yang kita lihat di layar.

    Blok Bangunan Dasar

    Ketika kita berbicara tentang bahasa tertulis, kita berbicara tentang huruf-huruf yang menjadi blok pembangun kata-kata, yang kemudian membangun kalimat, paragraf, dan sebagainya. Surat adalah simbol yang mewakili suara. Ketika Anda berbicara tentang bahasa, Anda berbicara tentang kelompok suara yang datang bersama untuk membentuk semacam makna. Setiap sistem bahasa memiliki seperangkat aturan dan definisi yang kompleks yang mengatur makna-makna itu. Jika Anda memiliki kata, tidak ada gunanya kecuali Anda tahu dari bahasa mana dan Anda menggunakannya dengan orang lain yang berbicara bahasa itu.

    (Perbandingan naskah Grantha, Tulu, dan Malayalam, Gambar dari Wikipedia)

    Dalam dunia komputer, kita menggunakan istilah "karakter". Karakter adalah semacam konsep abstrak, yang didefinisikan oleh parameter tertentu, tetapi itu adalah unit dasar makna. Bahasa Latin 'A' tidak sama dengan bahasa Yunani 'alpha' atau bahasa Arab 'alif' karena mereka memiliki konteks yang berbeda - mereka dari bahasa yang berbeda dan memiliki pengucapan yang sedikit berbeda - sehingga kita dapat mengatakan bahwa mereka adalah karakter yang berbeda. Representasi visual karakter disebut "mesin terbang" dan berbagai mesin terbang yang berbeda disebut font. Grup karakter milik "set" atau "repertoar."

    Saat Anda mengetik paragraf dan mengubah font, Anda tidak mengubah nilai fonetis huruf, Anda mengubah tampilannya. Itu hanya kosmetik (tapi tidak penting!). Beberapa bahasa, seperti Mesir dan Cina kuno, memiliki ideogram; ini mewakili seluruh gagasan alih-alih suara, dan pengucapannya dapat bervariasi dari waktu ke waktu. Jika Anda mengganti satu karakter dengan yang lain, Anda mengganti sebuah ide. Ini lebih dari sekedar mengubah huruf, itu mengubah ideogram.

    Pengkodean Karakter

    (Gambar dari Wikipedia)

    Saat Anda mengetik sesuatu di keyboard, atau memuat file, bagaimana komputer tahu apa yang harus ditampilkan? Untuk itulah pengkodean karakter. Teks di komputer Anda sebenarnya bukan huruf, ini adalah serangkaian nilai alfanumerik berpasangan. Pengkodean karakter bertindak sebagai kunci yang nilainya sesuai dengan karakter mana, seperti bagaimana ortografi menentukan suara mana yang sesuai dengan huruf mana. Kode morse adalah semacam pengkodean karakter. Ini menjelaskan bagaimana kelompok unit panjang dan pendek seperti bip mewakili karakter. Dalam kode Morse, karakternya hanya huruf Inggris, angka, dan berhenti penuh. Ada banyak pengkodean karakter komputer yang diterjemahkan menjadi huruf, angka, tanda aksen, tanda baca, simbol internasional, dan sebagainya.

    Seringkali pada topik ini, istilah "halaman kode" juga digunakan. Mereka pada dasarnya pengkodean karakter seperti yang digunakan oleh perusahaan tertentu, seringkali dengan sedikit modifikasi. Misalnya, halaman kode Windows 1252 (sebelumnya dikenal sebagai ANSI 1252) adalah bentuk modifikasi dari ISO-8859-1. Mereka sebagian besar digunakan sebagai sistem internal untuk merujuk ke pengkodean karakter standar dan dimodifikasi yang khusus untuk sistem yang sama. Awalnya, pengkodean karakter tidak begitu penting karena komputer tidak saling berkomunikasi. Dengan internet meningkat menjadi menonjol dan jaringan menjadi hal yang biasa terjadi, ini telah menjadi semakin penting dalam kehidupan kita sehari-hari tanpa kita sadari.

    Berbagai Jenis

    (Gambar dari sarah sosiak)

    Ada banyak pengkodean karakter yang berbeda di luar sana, dan ada banyak alasan untuk itu. Pengkodean karakter mana yang Anda pilih untuk digunakan tergantung pada apa kebutuhan Anda. Jika Anda berkomunikasi dalam bahasa Rusia, masuk akal untuk menggunakan pengkodean karakter yang mendukung Cyrillic dengan baik. Jika Anda berkomunikasi dalam bahasa Korea, maka Anda akan menginginkan sesuatu yang mewakili Hangul dan Hanja dengan baik. Jika Anda seorang ahli matematika, maka Anda menginginkan sesuatu yang memiliki semua simbol ilmiah dan matematika terwakili dengan baik, serta mesin terbang Yunani dan Latin. Jika Anda orang iseng, mungkin Anda akan mendapat manfaat dari teks terbalik. Dan, jika Anda ingin semua jenis dokumen itu dilihat oleh orang tertentu, Anda ingin penyandian yang cukup umum dan mudah diakses.

    Mari kita lihat beberapa yang lebih umum.

    (Kutipan tabel ASCII, Gambar dari asciitable.com)

    • ASCII - Kode Standar Amerika untuk Pertukaran Informasi adalah salah satu pengkodean karakter yang lebih lama. Awalnya dirancang berdasarkan kode telegraf dan berkembang seiring waktu untuk menyertakan lebih banyak simbol dan beberapa karakter kontrol yang tidak dicetak yang sudah ketinggalan zaman. Ini mungkin mendasar seperti yang Anda dapatkan dari sistem modern, karena terbatas pada alfabet Latin tanpa karakter beraksen. Pengkodean 7-bitnya hanya memungkinkan untuk 128 karakter, itulah sebabnya ada beberapa varian tidak resmi yang digunakan di seluruh dunia.
    • ISO-8859 - Kelompok pengkodean karakter yang paling banyak digunakan oleh Organisasi Internasional untuk Standardisasi adalah nomor 8859. Setiap pengkodean khusus ditetapkan oleh suatu angka, sering diawali oleh moniker deskriptif, mis. ISO-8859-3 (Latin-3), ISO-8859-6 (Latin / Arab). Ini adalah superset dari ASCII, yang berarti bahwa 128 nilai pertama dalam encoding sama dengan ASCII. Ini 8-bit, bagaimanapun, dan memungkinkan untuk 256 karakter, jadi itu membangun dari sana dan mencakup array karakter yang lebih luas, dengan masing-masing pengkodean khusus berfokus pada serangkaian kriteria yang berbeda. Latin-1 termasuk banyak aksen huruf dan simbol, tetapi kemudian diganti dengan set revisi yang disebut Latin-9 yang mencakup mesin terbang diperbarui seperti simbol Euro.

    (Kutipan dari aksara Tibet, Unicode v4, dari unicode.org)

    • Unicode - Standar pengodean ini bertujuan untuk universalitas. Saat ini mencakup 93 skrip yang disusun dalam beberapa blok, dengan lebih banyak lagi dalam karya. Unicode bekerja secara berbeda dari rangkaian karakter lain daripada mengubah kode untuk mesin terbang secara langsung, setiap nilai diarahkan lebih jauh ke “titik kode.” Ini adalah nilai heksadesimal yang sesuai dengan karakter tetapi mesin terbang itu sendiri disediakan secara terpisah oleh program. , seperti browser web Anda. Poin kode ini umumnya digambarkan sebagai berikut: U + 0040 (yang diterjemahkan menjadi '@'). Pengkodean khusus di bawah standar Unicode adalah UTF-8 dan UTF-16. UTF-8 mencoba untuk memungkinkan kompatibilitas maksimum dengan ASCII. Ini 8-bit, tetapi memungkinkan untuk semua karakter melalui mekanisme substitusi dan beberapa pasang nilai per karakter. UTF-16 parit kompatibilitas ASCII sempurna untuk kompatibilitas 16-bit yang lebih lengkap dengan standar.
    • ISO-10646 - Ini bukan pengkodean yang sebenarnya, hanya seperangkat karakter Unicode yang telah distandarisasi oleh ISO. Ini sebagian besar penting karena repertoar karakter yang digunakan oleh HTML. Beberapa fungsi lebih lanjut yang disediakan oleh Unicode yang memungkinkan untuk collation dan kanan-ke-kiri di samping kiri-ke-kanan scripting hilang. Namun, ini berfungsi sangat baik untuk digunakan di internet karena memungkinkan untuk penggunaan berbagai skrip dan memungkinkan browser untuk menafsirkan mesin terbang. Ini membuat pelokalan menjadi lebih mudah.

    Pengkodean Apa Yang Harus Saya Gunakan?

    Ya, ASCII berfungsi untuk sebagian besar penutur bahasa Inggris, tetapi tidak untuk banyak hal lain. Lebih sering Anda akan melihat ISO-8859-1, yang berfungsi untuk sebagian besar bahasa Eropa Barat. Versi lain dari ISO-8859 berfungsi untuk skrip Cyrillic, Arab, Yunani, atau lainnya. Namun, jika Anda ingin menampilkan banyak skrip dalam dokumen yang sama atau pada halaman web yang sama, UTF-8 memungkinkan kompatibilitas yang jauh lebih baik. Ini juga bekerja dengan sangat baik untuk orang-orang yang menggunakan tanda baca, simbol matematika, atau karakter off-the-cuff yang tepat, seperti kotak dan kotak centang.

    (Beberapa bahasa dalam satu dokumen, Cuplikan layar gujaratsamachar.com)

    Namun, ada kekurangan untuk setiap set. ASCII terbatas pada tanda baca, sehingga tidak berfungsi dengan sangat baik untuk pengeditan tipografi yang benar. Pernah mengetik copy / paste dari Word hanya untuk memiliki beberapa kombinasi mesin terbang yang aneh? Itulah kelemahan ISO-8859, atau lebih tepatnya, yang seharusnya interoperabilitas dengan halaman kode khusus OS (kami sedang melihat ANDA, Microsoft!). Kelemahan utama UTF-8 adalah kurangnya dukungan yang tepat dalam mengedit dan menerbitkan aplikasi. Masalah lain adalah bahwa browser sering tidak menafsirkan dan hanya menampilkan tanda urutan byte dari karakter yang dikodekan UTF-8. Ini menghasilkan mesin terbang yang tidak diinginkan ditampilkan. Dan tentu saja, mendeklarasikan satu penyandian dan menggunakan karakter dari yang lain tanpa mendeklarasikan / mereferensikannya dengan benar di halaman web menyulitkan browser untuk merendernya dengan benar dan mesin pencari mengindeksnya dengan tepat.

    Untuk dokumen Anda sendiri, naskah, dan sebagainya, Anda dapat menggunakan apa pun yang Anda butuhkan untuk menyelesaikan pekerjaan. Sejauh web berjalan, tampaknya sebagian besar orang setuju untuk menggunakan versi UTF-8 yang tidak menggunakan tanda urutan byte, tetapi itu tidak sepenuhnya bulat. Seperti yang Anda lihat, setiap pengkodean karakter memiliki kegunaan, konteks, dan kekuatan serta kelemahannya sendiri. Sebagai pengguna akhir, Anda mungkin tidak perlu berurusan dengan ini, tetapi sekarang Anda dapat mengambil langkah ekstra ke depan jika Anda memilihnya.