일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- hive beeline 실행
- mac hive
- mac hadoop 설정
- hive beeline
- code=0)
- Safe mode is ON
- hadoop safe mode leave
- mac hadoop
- 이더리움
- hadoop safe mode
- 도커 교과서
- 자소서 시간 줄이기
- 자소서 빨리 쓰는 법
- mac hadoop 설치
- mac hadoop 3
- 기업 조사 빨리 하는 법
- Could not open client transport with JDBC Uri: jdbc:hive2://localhost:10000
- Resources are low on NN
- 카카오 2020 코테
- hive beeline 에러
- 자소서 너무 오래 걸림
- 카카오 자물쇠와 열쇠
- 백준 18428
- Failed to connect to localhost:10000
- hive beeline 설정
- is not allowed to impersonate hive (state=08S01
- 카카오 2020 코딩테스트
- mac hive 3
- 자소서 빨리
- 이더리움 #ethereum
- Today
- Total
목록Data (46)
A seeker after truth
보호되어 있는 글입니다.
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/cc3yIE/btszkoSWHqj/CVuebJgOjjkZFKeagkjCN1/img.png)
기상청 사이트에서 기온 일부 갖고 오는 것 목표 저기서 아이디 값 활용하면 뭔가 할 수 있을 것 같이 생김 태그들 추출해 빈도 계산하면 사람들이 어떤 분야에 질문 젤 많이 하는지 알 수 있을 것. ul 태그 모두 찾은 뒤 이 안에 있는 li태그 내 text를 추출하려 함.
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/uPscs/btszb9bI0FW/o6fvghQNEQXB2qDQX7BfSk/img.png)
오른쪽처럼 class 마다 서로 다른 희한한 값 갖고 있는 이유? 요즘 무차별적 스크래핑 방지하고자 부러 저렇게 랜더마이즈 된 값을 클래스에 넣고 있는 경우가 생기고 있다고 함. 위같은 경우 사이트 구조 따라 스크래핑 가능하게 해보자. 이 떄 사용할 수 있는 방법 중 하나가 XPath ! 위치를 사용하는 방법이다. 이때 보면 클래스 값은 바뀌지 않지만, 클래스 내 위치는 계속 동일. 개발자 도구를 확인해보면 저 로그인 탭으로 간다는 걸 알 수 있. 이 떄 클래스가 nav-link, nav-signin 2개가 있는데, 클래스를 2개 사용하므로써 이렇게 계층 구조 2개로 존재할 수도 있다. => 스크래핑 시에는 이를 "nav-link.nav-signin" 이렇게 할 수 있. 그럼 이걸 어떻게 누르는가? 오 ..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/clMIvs/btsy4qd8E0O/EikVxv3gxES625yzPkyiMK/img.png)
크롤링 대상 사이트: https://books.toscrape.com/catalogue/category/books/travel_2/index.html 를 분석해보자. 여기서 부터 시작해, div 이하로만 타고타고 하위 요소로 들어가면 우리가 원하는 '책 제목' 데이터가 어디있는지 찾아낼 수 있다. 결국 우리가 찾는 건 section 태그 안 2번째 div 안에 표(Ordered List) 형식으로 나열돼 있는 걸 볼 수 있음. 마침내 찾아냈다 요거다. 여기 있는 "It's only the Himalayas". 이걸 컨텐츠 기반으로 스크래핑 한다고 하는데, 타겟팅 하는 사이트 대상으로 모두 이 방법으로 크롤링 하는건 그렇게 좋은 행위는 아니다. 왜냐면 구조가 바뀌기 때문임. 그래서 특정 태그를 타겟팅해 스..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/y6uBf/btsy4kKLwab/SivD2DeFfMlXO59Mo6SaKK/img.png)
1. HTTP 이미지, 동영상, 오디오, 텍스트를 포함한 Hypertext 즉, Hyperlink와 같은 링크 기반의 데이터를 주고 받기 위한 프로토콜이다. FTP, 텔넷 등이 들어있는 OSI Layer 7(응용 계층)에 속해있다. 웹 브라우저에서 HTTP request의 head, method, path 등을 볼 수 있는 이유? 브라우저란 게 알고 보면 http 요청, 응답 송수신을 도와주는 하나의 프로그램이라 그렇다. 그래서 코드 없이 이 모든 동작이 가능한 것. 그 기능 일부를 파이썬으로 구현해볼 수 있으며, 이 때 사용되는 라이브러리가 urllib3, requests 인 것. 2. HTML 웹 브라우저마다 지원하는 태그와 속성이 다르다. 그 비교표도 있음. 웹 스크래핑 관점에서 html을 정리하면..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/clhKo7/btsy3MUaJqB/0VNNawwBK0KZkEKGqnnvB0/img.png)
콘텐츠를 갖는 태그와 갖지 않는 태그로 나뉜다. 셀프 클로징이란 것도 있다! HTML 버전 따라 지원하기도, 안 하기도 한다. (참고: 요즘은 5버전 기본 사용) 속성과 태그에 따라 태그가 갖는 고유의 값 또는 모든 태그가 갖는 전역 속성의 태그가 있다. 이를테면 title은 전역 속성이라 모든 태그에서 다 사용할 수 있! - a: 페이지 이동 태그. href 란 속성 가짐. 또 콘텐츠를 갖는 태그. *5버전 말고 다른 버전의 표기법이 궁금하면 "html doctype"에 대해 찾아보라. 1. head 1) 개념 사람이 아닌, 웹 브라우저 등 기기에 알려줄 정보를 담는 태그. 이를테면 head 밑 title란 태그는 웹 브라우저 창에 들어가는 문장. 2) 담는 정보 • 메타데이터 - 인코딩 정보: cha..