유니코드 텍스트 인코딩/디코딩
유니코드 텍스트 인코딩이란?
유니코드(Unicode)는 전 세계의 모든 문자를 일관되게 표현하기 위한 국제 표준입니다. 각 문자에는 고유한 코드 포인트(Code Point)가 할당되어 있으며, 이를 다양한 방식으로 인코딩할 수 있습니다.
유니코드 이스케이프 (\uXXXX): 문자를 \uXXXX 형식으로 표현합니다. 예를 들어 '한'은 \ud55c로 표현됩니다. 프로그래밍 언어에서 문자열 리터럴에 특수 문자를 포함할 때 주로 사용됩니다.
HTML 엔티티 (HHHH;): HTML 문서에서 특수 문자나 비ASCII 문자를 안전하게 표현하기 위한 방식입니다. HHHH; 형식으로 표현하며, HTML 파서가 올바르게 해석합니다.
UTF-8 바이트: 유니코드 문자를 UTF-8 인코딩으로 변환한 바이트 시퀀스를 16진수로 표현합니다. UTF-8은 가변 길이 인코딩으로, ASCII 문자는 1바이트, 한국어 등은 3바이트로 표현됩니다.
URI 인코딩 (%XX): URL에서 특수 문자나 비ASCII 문자를 안전하게 전송하기 위한 퍼센트 인코딩 방식입니다. 각 바이트를 %XX 형식으로 표현합니다.