Mojibake

Mojibake (文字化け, pronunciado /modʑibake/) é o nome para caracteres incorretos e ilegíveis mostrados quando o software de computador não mostra o texto corretamente. Ao usar computadores, o texto é codificado usando uma codificação de caracteres. Na transferência, cada caractere é substituído por sua posição (ou número) na codificação. Para exibir o caractere novamente, a posição é novamente substituída pelo caractere. Quando a codificação original não é especificada, um caractere diferente pode ser usado quando o número é novamente substituído pelo caractere para exibição. Unicode foi introduzido para resolver este problema: UTF-8 é capaz de codificar os caracteres mais comuns em 2 bytes.

Antes da introdução do Unicode, foram utilizadas outras codificações de caracteres. Como exemplo, a ISO-8859 contém 15 codificações diferentes. Estes são os mesmos para os caracteres comumente usados em inglês. Eles têm vários "blocos" de "caracteres especiais", que são arquivados de forma diferente para cada codificação.



Isto é o que um site pode parecer se for usada a codificação errada da fonte.Zoom
Isto é o que um site pode parecer se for usada a codificação errada da fonte.

O artigo da Wikipedia japonesa para Mojibake usa a codificação UTF-8. Esta captura de tela mostra como é, quando é decodificada usando o Windows CP1252 enocding padrão.Zoom
O artigo da Wikipedia japonesa para Mojibake usa a codificação UTF-8. Esta captura de tela mostra como é, quando é decodificada usando o Windows CP1252 enocding padrão.

Origem da palavra

Mojibake é uma palavra japonesa. A palavra 文字化け ([moʥibake]) é composta de duas partes. 文字 (moji) significa letra, caracter. 化け (bake), do verbo 化ける (bakeru), significa aparecer disfarçado, tomar a forma de, mudar para pior. Literalmente, significa "mutação de caráter".



Perguntas e Respostas

Q: O que é "mojibake"?


R: Mojibake é o termo para caracteres incorretos e ilegíveis que aparecem quando o software do computador não consegue exibir o texto corretamente.

P: Como o texto é codificado quando se usa computadores?


R: O texto é codificado usando uma codificação de caracteres, em que cada caractere é substituído por sua posição ou número na codificação.

P: O que acontece quando a codificação original não é especificada durante a transferência de texto?


R: Quando a codificação original não é especificada, um caractere diferente pode ser usado quando o número é substituído pelo caractere para exibição.

P: O que é Unicode e como ele resolve esse problema?


R: Unicode é um padrão de codificação de caracteres que pode representar a maioria dos caracteres em dois bytes. Ele resolve o problema de usar codificações de caracteres diferentes e garante que os caracteres sejam exibidos corretamente.

P: Quais são alguns exemplos de outras codificações de caracteres que eram usadas antes do Unicode?


R: ISO-8859 é um exemplo de outra codificação de caracteres usada antes do Unicode.

P: Quantas codificações diferentes o ISO-8859 contém?


R: O ISO-8859 contém 15 codificações diferentes.

P: Os caracteres especiais do ISO-8859 são os mesmos para todas as codificações?


R: Não, os caracteres especiais do ISO-8859 são arquivados de forma diferente para cada codificação.

AlegsaOnline.com - 2020 / 2023 - License CC3