rrimyuu 님의 블로그

Python 정규표현식 안 먹힘 본문

Python/Error Solution

Python 정규표현식 안 먹힘

rrimyuu 2025. 4. 3. 10:38

 

각 환자 폴더 이름을 통해, 정규표현식으로 특정 정보를 추출하려 하는데 안 먹히는 경우 발생 

 

match = re.search(r"\(\d+\)\s+(\d+)_([가-힣]+)_", patient_name)

 

폴더 이름이 이와 같았는데, '(000) 00000000000_이름_20250403000000'

 

string 임에도 정규표현식이 반영이 안됨. 동일한 폴더명을 변수로 만들어서 하면 잘 돌아갔음. 

 

-> 시각적으로 동일한데도, 차이가 있나봄.  분리형(ㅇㅠㄹㅣㅁ)/완성형 한글(유림) 차이라 함 

 

그래서 아래와 같이 정규화해준 다음 하면 잘됨. 

normalized_patient_name = unicodedata.normalize("NFC", patient_name)

match = re.search(r"\(\d+\)\s+(\d+)_([가-힣]+)_", normalized_patient_name)