문자 코드를 인코딩하려면 먼저 코드에 필요한 비트 수를 찾은 다음 포함할 가장 작은 인코딩을 선택합니다. 예를 들어 바이너리의 121579는 1110110101111이며, 17비트가 필요하므로 21비트를 제공하는 4바이트 인코딩을 선택합니다. UTF-8은 ASCII 텍스트(ASCII 문자 집합을 사용하는 텍스트)가 ASCII 인코딩과 동일한 바이트 인코딩을 가지고 있는 중요한 속성을 가지고 있습니다. 예를 들어 „hello world“ 문자열은 위와 동일한 바이트로 인코딩됩니다. 즉, 새 프로그램은 ASCII 문자 집합만 사용하는 한 이전 프로그램과 상호 작용할 수 있습니다. 그러나 이 페이지는 웹 브라우저에서 UTF-8 지원에 대한 일종의 스트레스 테스트로 시작된 웹 페이지로, 이 페이지가 처음 만들어졌을 때 는 얼룩이 었지만 모든 최신 브라우저에서 표준이 되었습니다. 문제는 이제 주로 글꼴과 비 영해 유니코드 평면에 대한 브라우저 (또는 글꼴)의 지원입니다 (예 : 아래 점자 및 고딕 양식의 예). 그리고 어느 정도 시퀀스, 오른쪽에서 왼쪽 변환 (아랍어, 히브리어) 등을 결합의 변환. Windows용 유니코드 글꼴에 대한 설문 조사를 보려면 여기를 클릭하십시오. 1992년 초에는 다중 바이트 문자 집합의 좋은 바이트 스트림 인코딩을 검색했습니다. ISO 10646 표준 초안에는 32비트 코드 포인트의 바이트 스트림 인코딩을 제공하는 UTF-1이라는 불필요한 부속서가 포함되어 있습니다.
이 인코딩은 성능 상의 이유로 만족스럽지 못했으며, 가장 큰 문제는 ASCII와 비 ASCII 사이에 명확한 분리가 없다는 것이었습니다: 새로운 UTF-1 도구는 ASCII 인코딩된 텍스트와 이전 버전과 호환되지만 UTF-1-인코딩 된 텍스트는 ASCII (또는 확장 ASCII)를 기대하는 기존 코드를 혼동 할 수 있습니다. 이름과 교체의 소개 텍스트에 반영됩니다. 아래 표는 부속서의 텍스트 설명에서 파생되었습니다. 나는 또한 이러한 예제가 „hurt“의 잘못된 의미를 번역한다고 생각하지만 이러한 언어는 확실히 주장 할 만큼 잘 알지 못합니다 : 원칙적으로 코드 포인트를 선도 0으로 패딩하여 인코딩에서 바이트 수를 부풀릴 수 있습니다.


Nejnovější komentáře