공부/CS

유니코드(Unicode)란?

셩잇님 2023. 6. 5. 18:18
반응형

 

 

1. 유니코드란?

유니코드는 전 세계 대부분의 문자 체계에서 표현되는 모든 문자를 표현하는 것을 목표로 하는 범용 문자 인코딩 표준입니다. 유니코드 표준은 플랫폼, 프로그램 또는 언어에 관계없이 모든 문자에 대해 고유한 숫자 코드 포인트를 제공합니다. 이를 통해 모든 언어의 텍스트를 여러 시스템에서 일관된 방식으로 표현할 수 있습니다.

 

2. 유니코드의 속성
문자 인코딩: 유니코드는 문자와 해당 숫자 코드 포인트 간의 매핑을 정의합니다. 코드 포인트는 16진수로 표시되는 각 문자에 할당된 고유 값입니다. 예를 들어 코드 포인트 U+0041은 라틴 대문자 "A"를 나타냅니다.

광범위한 문자 지원: 유니코드는 다양한 문자 체계의 문자, 기호, 이모티콘, 수학 표기법, 특수 문자 등 광범위한 문자를 포괄합니다. 라틴어, 키릴 문자, 그리스어, 아랍어, 중국어, 일본어 등 전 세계에서 사용되는 거의 모든 스크립트의 문자를 지원합니다.

다국어 지원: 유니코드의 주요 목표 중 하나는 다국어 텍스트 표현을 용이하게 하는 것입니다. 유니코드는 동일한 텍스트 문자열 내에서 서로 다른 문자 체계의 문자를 혼합하고 렌더링할 수 있습니다. 이를 통해 소프트웨어와 시스템이 여러 언어로 된 텍스트를 동시에 처리하고 표시할 수 있습니다.

호환성: 유니코드는 기존 문자 인코딩 표준과의 호환성을 유지하기 위한 메커니즘을 제공합니다. 여기에는 ASCII, ISO 8859 및 다양한 국가 표준과 같은 이전 인코딩의 문자에 대한 매핑 및 변환이 포함됩니다. 이를 통해 레거시 텍스트를 올바르게 표현하고 유니코드 표준으로 변환할 수 있습니다.

인코딩 체계: 유니코드는 텍스트를 저장하고 전송하기 위해 다양한 형식으로 인코딩할 수 있습니다. 유니코드에 가장 일반적으로 사용되는 인코딩 체계는 UTF-8, UTF-16 및 UTF-32입니다.

  • UTF-8(8비트 유니코드 변환 형식)은 유니코드 코드 포인트를 나타내기 위해 1~4바이트를 사용하는 가변 길이 인코딩입니다. 데이터 저장, 웹 페이지 및 통신 프로토콜에 널리 사용됩니다.
  • UTF-16(16비트 유니코드 변환 형식)은 2바이트를 사용하여 가장 일반적인 문자를 나타내지만, 덜 일반적으로 사용되는 문자의 경우 4바이트까지 확장할 수 있습니다. 일반적으로 Windows 시스템과 Java 프로그래밍 언어에서 사용됩니다.
  • UTF-32(32비트 유니코드 변환 형식)는 모든 코드 포인트에 4바이트를 사용하여 고정 길이 인코딩을 제공합니다. UTF-8 및 UTF-16에 비해 덜 일반적으로 사용됩니다.

 

3. 유니코드의 장점
일관성: 유니코드는 다양한 언어와 문자 체계에서 텍스트를 일관되게 표현할 수 있는 방법을 제공합니다. 따라서 서로 다른 시스템과 애플리케이션 간에 데이터를 더 쉽게 교환할 수 있습니다.
효율성: 유니코드는 가변 길이 인코딩을 사용하므로 서로 다른 문자를 서로 다른 바이트 수를 사용하여 표현할 수 있습니다. 따라서 ASCII와 같은 고정 길이 인코딩보다 더 효율적일 수 있습니다.
확장성: 유니코드는 필요에 따라 새로운 문자를 지원하도록 확장할 수 있습니다. 따라서 미래에도 사용할 수 있는 표준입니다.

 

4. 결론

유니코드는 문자 인코딩의 사실상의 표준이 되어 다양한 플랫폼, 프로그래밍 언어 및 소프트웨어 애플리케이션에서 일관되고 안정적인 텍스트 표현을 가능하게 합니다. 유니코드는 글로벌 상호 운용성, 다국어 지원, 문자 손실이나 손상 없이 정보 교환을 촉진합니다.

 

 

 

반응형