LHJ

I'm a FE developer.

3-8. 연산자(Operator) / 유니코드, UTF

18 Nov 2020 » js_beginner

24. 유니코드, UTF

유니코드와 UTF가 연산자는 아닙니다만, 다음절에서 사용하므로 여기서 먼저 다룹니다.

유니코드

  • Unicode

    • 세계의 모든 문자를 통합하여 코드화
    • 언어, 이모지 😍 🤣 등이 코드화 되어 있습니다.
    • 코드 값을 코드 포인트(code Point)라고 부름
    • 0000~FFFF, 10000~1FFFF 값에 문자 매핑
    • 유니코드 컨소시엄 http://www.unicode.org/

  • 표기 방법

    • u(유니코드)와 숫자 형태 : u0031 은 숫자 1
    • JS는 u 앞에 역슬래시() 작성

        console.log("\u0031"); // 1
        console.log("\u0041"); // A
        console.log("\u1100"); // ㄱ
        console.log("\uac01"); // 각
      
    • 역슬래시()를 문자로 표시하려면
      역슬래시(\) 2개 작성

        console.log("\\u0031"); // \u0031
        console.log("\\u0041"); // \u0041
      
    • ES6에서 표기 방법 추가됨

      • ES5에선 4자리밖에 지원하지 않았습니다. 0000~FFFF
      • ES6에선 5자리를 지원합니다. 10000~1FFFF
        그래서 5자리 코드포인트(Code Point)를 사용하시려면 ES6 방법을 사용하셔야됩니다.
        ES5에서도 5자리를 사용할 수 있습니다만, 위의 예시로 보여드린 코드와 같은 형태는 아닙니다.
        그래서 ES6 방법을 사용하시는 것이 더 편리합니다.

UTF

  • Unicode Transformation Format

    • 유니코드의 코드 포인트를 매핑하는 방법
    • UTF-8, UTF-16, UTF-32로 표기
    • <meta charset=”utf-8”>
    • UTF-8은 8비트로 코드 포인트 매핑
    • 8비트 인코딩(Encoding)이라고 부름 (반대로 디코딩도 있습니다.)