본문 바로가기
반응형

개발4

[CS] ASCII code, Unicode, UTF-8 UTF-8 은 Unicode 를 8비트 단위로 해석하는 방식입니다. ASCII 코드 아스키 코드는 8비트로 문자열을 인코딩하는 방식입니다. 그중 7비트는 문자를 표현하는데 사용하고, 나머지 1비트는 오류검을 위해 사용됩니다. 표와 같이 7비트를 사용해서 총 128개의 문자를 표현하는 인코딩 방식입니다. Unicode 유니코드는 7비트의 한계로 더 많은 문자를 표현하기 위해서 1byte ~ 4byte 까지 사용하여 문자를 표현하는 인코딩 방식입니다. 유니코드표 그만큼 표로 본다면 엄청나게 많은 문자를 표현하고있습니다. UTF-8 그런데, 1~4byte 를 사용하면서, 문자마다 가변적인 길이를 가지고 있다는게 문제가 되어, 이를 해석하는 방법중 하나가 utf-8 입니다. 그래서 문자마다 몇 byte 를 사용.. 2023. 10. 4.
[CS] Base64 (feat. btoa(), atob()) 컴퓨터는 모든 데이터를 이진 데이터만을 처리할 수 있습니다. 0 과 1 로 모든 것을 표현해야하는 것이죠. 코딩도 사람이 이해하는 언어로 작성후 결국 이진 데이터로 변환하여 컴퓨터가 처리할 수 있도록 합니다. 이렇게 상호간에 전환하는 작업을 encoding, decoding 이라고 합니다. Binary-to-text encoding 이름에서 알 수 있듯, 이진 데이터를 텍스트로 변환하는 것을 의미합니다. 최종적으로 이 데이터를 컴퓨터가 인식할 때는 이진 데이터로 전환해야하지만, 그전 단계 즉, 데이터를 작성하거나, 전송하거나, 출력하거나 하는 작업은 이진 데이터를 사람이 이해하는 텍스트 데이터로 사용해야할 경우가 생깁니다. Base64 base64 는 8bit 이진 데이터를 텍스트로 인코딩하는 방식 중 .. 2023. 10. 4.
간단 명료 하게 정규식 이해하기(2) 간단 명료 하게 정규식 이해하기(2) 하위 표현식으로 묶기 html 에서 2개 이상 연속된 공백을 찾는 정규식입니다. 수량자는 바로앞 문자만 인식하기 때문에, 위와같은 조합을 하나로 묶는데 사용됩니다. 역참조(≒ 변수) \숫자 : 해당 정규식에서 사용된 n번째 하위 표현식을 참조합니다.(마치 변수처럼 활용 가능) 전방탐색, 후방탐색 ?= 를 사용하여 특정한 문자를 기준 앞으로의 문자열에서 탐색하도록 합니다. 만약 전방탐색을 하지 않으면 결과물에 포함됩니다. 이렇게 특정 태그내의 텍스트만 추출하고 싶을 때 사용할 수 있는데, 후방탐색(? 2023. 4. 9.
간단 명료 하게 정규식 이해하기(1) 간단 명료 하게 정규식 이해하기(1) 문자 찾기 정규식 내에서 작성된 문자는 동일한 문자를 찾아냅니다. 아무 문자 찾기 정규식에서는 특수 기능을 위한 "메타 문자" 가 존재합니다. 모든 문자에 해당하는 메타 문자는 점(.) 입니다. * 메타 문자를 일반 문자열로 사용하기 위한 방법이 역슬래시(\) 입니다. ex) \. ➡️ 점, . ➡️ 모든 문자열 (이를 이스케이프라고 합니다) 집합으로 찾기, 집합으로 제외하기 [] 대괄호는 내부 문자들을 OR 로 묶어냅니다. [] 대괄호를 캐럿(^) 으로 시작하면 제외의 의미로 사용됩니다. 메타 문자 찾기 앞서 설명했듯 약속된 메타 문자들은 문자 그대로 사용할 수 없기에 이스케이프(\) 를 앞에 붙여 일반 문자 취급할 수 있습니다. . : 임의의 문자 하나를 나타냅니.. 2023. 4. 9.
반응형