관리 메뉴

A seeker after truth

231026 목 Day8 - 크롤링4: 셀레늄 본문

Data/데엔 데브코스 TIL

231026 목 Day8 - 크롤링4: 셀레늄

dr.meteor 2023. 10. 26. 16:38

오른쪽처럼 class 마다 서로 다른 희한한 값 갖고 있는 이유? 요즘 무차별적 스크래핑 방지하고자 부러 저렇게 랜더마이즈 된 값을 클래스에 넣고 있는 경우가 생기고 있다고 함.

 

위같은 경우 사이트 구조 따라 스크래핑 가능하게 해보자. 이 떄 사용할 수 있는 방법 중 하나가 XPath ! 위치를 사용하는 방법이다. 이때 보면 클래스 값은 바뀌지 않지만, 클래스 내 위치는 계속 동일.

 

 

개발자 도구를 확인해보면 저 로그인 탭으로 간다는 걸 알 수 있. 이 떄 클래스가 nav-link, nav-signin 2개가 있는데, 클래스를 2개 사용하므로써 이렇게 계층 구조 2개로 존재할 수도 있다. => 스크래핑 시에는 이를 "nav-link.nav-signin" 이렇게 할 수 있.

 

그럼 이걸 어떻게 누르는가? 오 성공 했다... 질답 게시판 자료로!

 

 

 

이번에는 로그인을 직접 해보도록 할 거.

보면, id="user_email"로 아이디값존재! 근데 아이디는 고유하니까 이거 쓰면 된다. 근데 이게 지금 버전 사이트에선 안그럼...ㅠㅠㅠㅠ 현재 사이트는 훨씬 더 진화해서.. 이걸 어케 뚫나 싶은데?