All Articles

Daily log - 31일차


day31

잘 짜놓은 크롤러도 돌려봐야 안다.

오전 9시 ~ 오전 10시 30분

개별 페이지로 들어가는 크롤러 수정 <-> 테스트 반복 반복 반복. 스타벅스랑 마찬가지로 전체 상품 리스트 페이지에서 주소를 따와서 링크를 직접 꽂아주는 방식으로 만들었다.

오전 10시 30분 ~ 11시 30분

그저 멍하기만 한 정신상태로 코드카타를 풀려니 짝꿍 사고 흐름도 따라가기 버거웠다. 몸만 여기 있고 정신은 어딘가를 떠돌고 있는 기분. 영 부팅이 안 돼서 너무 괴로웠다.

오후 1시 ~ 11시

어제 피드백 받은 부분을 수정하고 aquery 내용을 바탕으로 크롤링할 데이터를 정했다. 내가 맡은 부분은 여성 > 신발 각 상세 페이지 전체와 남성 > 신발 각 상세 페이지 전체. 상세 페이지 중 어떤 요소는 스크롤을 내려야 로딩이 돼서 Keys.PAGE_DOWN을 다시 써봤다. 크롤링 몇 번 해본 경험치도 경험치라고 뽑아낸 텍스트에서 원하는 부분만 발라내는 것도 이제 척척 가능하다. 그 전에는 코드 이해조차 못 했는데 말이지.

하지만 크롤링은 뭐다? 크롤러를 돌려봐야 안다. 하나하나 테스트할 때는 잘 됐는데 전체 페이지 대상으로 전체 코드를 돌려보면 말도 못하게 오류가 많이 난다. 오타부터 시작해서 바꾼 변수 이름을 미처 바꾸지 못한 부분이 있다든지 정보를 담아줄 빈 리스트 선언 위치가 엉뚱한 곳에 있다든지 그런 소소한 오류. 차라리 크롤링 중간에 에러 나면서 끊기면 나은데 100여 개 페이지를 다 돌고 마지막에 에러가 뜨면 아주 환장하는 것이다. 그래도 뭐 어떡하겠어. 수정하고 다시 처음부터 돌려봐야지…

닥터마틴 모든 페이지 로딩 시간이 길다보니 상품 수는 스타벅스보다 적은데 크롤러 돌리는 시간은 훨씬 오래 걸린다. 지금도 크롤러 돌려놓고 블로그를 쓰는 중이고 내 노트북은 곧 이륙할 기세고.