일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 이더리움 #ethereum
- 백준 18428
- 카카오 2020 코딩테스트
- 자소서 너무 오래 걸림
- hive beeline 실행
- mac hive
- mac hadoop 설정
- 카카오 자물쇠와 열쇠
- hadoop safe mode
- mac hive 3
- hive beeline 설정
- 자소서 시간 줄이기
- Failed to connect to localhost:10000
- 자소서 빨리
- hadoop safe mode leave
- mac hadoop 3
- code=0)
- Resources are low on NN
- 도커 교과서
- 이더리움
- 기업 조사 빨리 하는 법
- 자소서 빨리 쓰는 법
- mac hadoop
- is not allowed to impersonate hive (state=08S01
- Safe mode is ON
- 카카오 2020 코테
- mac hadoop 설치
- hive beeline 에러
- hive beeline
- Could not open client transport with JDBC Uri: jdbc:hive2://localhost:10000
- Today
- Total
목록Data/데엔 데브코스 TIL (21)
A seeker after truth

크롤링 대상 사이트: https://books.toscrape.com/catalogue/category/books/travel_2/index.html 를 분석해보자. 여기서 부터 시작해, div 이하로만 타고타고 하위 요소로 들어가면 우리가 원하는 '책 제목' 데이터가 어디있는지 찾아낼 수 있다. 결국 우리가 찾는 건 section 태그 안 2번째 div 안에 표(Ordered List) 형식으로 나열돼 있는 걸 볼 수 있음. 마침내 찾아냈다 요거다. 여기 있는 "It's only the Himalayas". 이걸 컨텐츠 기반으로 스크래핑 한다고 하는데, 타겟팅 하는 사이트 대상으로 모두 이 방법으로 크롤링 하는건 그렇게 좋은 행위는 아니다. 왜냐면 구조가 바뀌기 때문임. 그래서 특정 태그를 타겟팅해 스..

1. HTTP 이미지, 동영상, 오디오, 텍스트를 포함한 Hypertext 즉, Hyperlink와 같은 링크 기반의 데이터를 주고 받기 위한 프로토콜이다. FTP, 텔넷 등이 들어있는 OSI Layer 7(응용 계층)에 속해있다. 웹 브라우저에서 HTTP request의 head, method, path 등을 볼 수 있는 이유? 브라우저란 게 알고 보면 http 요청, 응답 송수신을 도와주는 하나의 프로그램이라 그렇다. 그래서 코드 없이 이 모든 동작이 가능한 것. 그 기능 일부를 파이썬으로 구현해볼 수 있으며, 이 때 사용되는 라이브러리가 urllib3, requests 인 것. 2. HTML 웹 브라우저마다 지원하는 태그와 속성이 다르다. 그 비교표도 있음. 웹 스크래핑 관점에서 html을 정리하면..

콘텐츠를 갖는 태그와 갖지 않는 태그로 나뉜다. 셀프 클로징이란 것도 있다! HTML 버전 따라 지원하기도, 안 하기도 한다. (참고: 요즘은 5버전 기본 사용) 속성과 태그에 따라 태그가 갖는 고유의 값 또는 모든 태그가 갖는 전역 속성의 태그가 있다. 이를테면 title은 전역 속성이라 모든 태그에서 다 사용할 수 있! - a: 페이지 이동 태그. href 란 속성 가짐. 또 콘텐츠를 갖는 태그. *5버전 말고 다른 버전의 표기법이 궁금하면 "html doctype"에 대해 찾아보라. 1. head 1) 개념 사람이 아닌, 웹 브라우저 등 기기에 알려줄 정보를 담는 태그. 이를테면 head 밑 title란 태그는 웹 브라우저 창에 들어가는 문장. 2) 담는 정보 • 메타데이터 - 인코딩 정보: cha..