일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
Tags
- hadoop safe mode leave
- hive beeline 실행
- mac hadoop
- hadoop safe mode
- 카카오 2020 코테
- 이더리움
- 카카오 자물쇠와 열쇠
- 자소서 빨리
- 기업 조사 빨리 하는 법
- mac hadoop 설치
- Could not open client transport with JDBC Uri: jdbc:hive2://localhost:10000
- Resources are low on NN
- 도커 교과서
- is not allowed to impersonate hive (state=08S01
- 백준 18428
- hive beeline 에러
- hive beeline
- Failed to connect to localhost:10000
- 자소서 시간 줄이기
- mac hadoop 설정
- mac hive
- hive beeline 설정
- 이더리움 #ethereum
- code=0)
- 카카오 2020 코딩테스트
- mac hive 3
- mac hadoop 3
- 자소서 빨리 쓰는 법
- Safe mode is ON
- 자소서 너무 오래 걸림
Archives
- Today
- Total
A seeker after truth
231026 목 Day8 - 크롤링4: 셀레늄 본문
오른쪽처럼 class 마다 서로 다른 희한한 값 갖고 있는 이유? 요즘 무차별적 스크래핑 방지하고자 부러 저렇게 랜더마이즈 된 값을 클래스에 넣고 있는 경우가 생기고 있다고 함.
위같은 경우 사이트 구조 따라 스크래핑 가능하게 해보자. 이 떄 사용할 수 있는 방법 중 하나가 XPath ! 위치를 사용하는 방법이다. 이때 보면 클래스 값은 바뀌지 않지만, 클래스 내 위치는 계속 동일.
개발자 도구를 확인해보면 저 로그인 탭으로 간다는 걸 알 수 있. 이 떄 클래스가 nav-link, nav-signin 2개가 있는데, 클래스를 2개 사용하므로써 이렇게 계층 구조 2개로 존재할 수도 있다. => 스크래핑 시에는 이를 "nav-link.nav-signin" 이렇게 할 수 있.
그럼 이걸 어떻게 누르는가? 오 성공 했다... 질답 게시판 자료로!
이번에는 로그인을 직접 해보도록 할 거.
보면, id="user_email"로 아이디값존재! 근데 아이디는 고유하니까 이거 쓰면 된다. 근데 이게 지금 버전 사이트에선 안그럼...ㅠㅠㅠㅠ 현재 사이트는 훨씬 더 진화해서.. 이걸 어케 뚫나 싶은데?
'Data > 데엔 데브코스 TIL' 카테고리의 다른 글
231030 월 Day10 - 장고1: 설정, model, timezone (0) | 2023.10.30 |
---|---|
231027 금 Day9 - 크롤링5: 시각화(seaborn, wordcloud) (0) | 2023.10.27 |
231025 수 Day7 - 크롤링3: BeautifulSoup (0) | 2023.10.25 |
231024 화 Day6 - 크롤링2: http, 브라우저 (0) | 2023.10.24 |
231023 월 Day5 - 크롤링1: html css (0) | 2023.10.23 |