분석을 위해 데이터를 전처리 하는 것은 언제나 어려운 일이다.
원하는 결과를 얻기 위해 사용할 수 있는 방법은 여러가지가 있는데, 그중 가장 간단하고 짧은 code를 선택하는 게 여러가지 면에서 좋을 것 같다는 막연한 생각을 가지고 있다.
유사한 패턴을 가지고 있는 데이터를 한번에 추출하는 방법을 찾고 있다가 우연히 '정규표현식'이라는 분야를 접하게 되었는데 coding 초보에게는 완전히 신세계였다.
수집한 단어 목록중 '제1장', '제2장'...... '제xxx장'같은 단어를 제거하는 문제인데, for 문을 이용해도 되겠지만 code가 길어져서 다소 불만스러워 하고 있었는데, 정규표현식을 이용하면 이걸 한줄짜리 짧은 코드를 이용하여 처리가 가능하다는 것을 보고 그 매력에 푹 빠져 버렸다. 다만 code가 짧아지고 깔끔하게 정리된다는 장점에 비해 너무 어려워 '가까이 하기엔 너무 먼 당신' 이라는 것이 문제
'데이터과학' 카테고리의 다른 글
[TIL] R 4.0 upgrade기 (0) | 2020.08.01 |
---|---|
[TIL]lm()함수 탐구생활 (0) | 2020.07.08 |
[TIL] 3개 이상의 집단을 비교하는 방법 (0) | 2020.06.25 |
[TIL] 2개의 집단을 비교하는 방법 (0) | 2020.06.25 |
[TIL]데이터 분석용 파이썬 패키지 소개 (0) | 2020.03.18 |