bytes 썸네일형 리스트형 Fluent Python (챕터 4) 텍스트와 바이트 현재 문자를 가장 잘 정의한 것은 유니코드 문자다. 유니코드 표준은 문자의 단위 원소와 특정 바이트 표현을 명확히 구분한다. 문자의 단위 원소(코드 포인트)는 10진수 0에서 1,114,111까지의 숫자이며, 유니코드 표준에서는 U+ 접두사를 붙여 4자리에서 6자리 사이의 16진수로 표현한다. 문자를 표현하는 실제 바이트는 사용하는 인코딩에 따라 달라진다. 인코딩은 코드 포인트를 바이트 시퀀스로 변환하는 알고리즘이다. s = 'café' print(len(s)) > 4 b = s.encode('utf8') print(b, len(b)) > b'caf\xc3\xa9' 5 print(b.decode('utf8')) > café café 문자열은 네 개의 유니코드 문자를 갖고 있다. UTF-8.. 더보기 이전 1 다음