일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- Could not open client transport with JDBC Uri: jdbc:hive2://localhost:10000
- hive beeline 에러
- mac hive
- Safe mode is ON
- 백준 18428
- 자소서 빨리 쓰는 법
- 이더리움
- 자소서 빨리
- 기업 조사 빨리 하는 법
- hive beeline
- Failed to connect to localhost:10000
- 자소서 시간 줄이기
- mac hadoop 3
- mac hive 3
- mac hadoop
- hive beeline 실행
- 도커 교과서
- hive beeline 설정
- is not allowed to impersonate hive (state=08S01
- 카카오 2020 코테
- mac hadoop 설정
- 카카오 2020 코딩테스트
- 카카오 자물쇠와 열쇠
- 이더리움 #ethereum
- hadoop safe mode
- hadoop safe mode leave
- code=0)
- Resources are low on NN
- mac hadoop 설치
- 자소서 너무 오래 걸림
- Today
- Total
목록분류 전체보기 (187)
A seeker after truth
1단원 - 그래프 기반 표현은 전체 작업을 하나의 모놀리식(단일) 스크립트 또는 프로세스로 구성되는 게 아니라 파이프라인을 작은 점진적 태스크로 명확히 분리할 수 있다. 전자가 구현 초기엔 그닥 문제 안되지만, 파이프라인 중간 태스크가 실패하면 전체 스크립트를 재실행해야 하기 때문에 비효율적. 그래프 기반 표현은 그 반대. - 에어플로 덕에 여러 시스템 간 데이터 프로세스를 결합할 수 있는 복잡한 데이터 파이프라인 구축이 가능해졌다. - 그림 1.8 12쪽 암기.. - 오퍼레이터와 태스크는 동일한 개념(용어)이다. 2단원 - 도커 컨테이너 활용해 운영 수준에서 격리하면 파이썬 패키지 세트 뿐 아니라 데베 드라이버, gcc 컴파일러 등 의존성 포함해 도커 컨테이너 생성 가능하단 점에 의의. 아, 글고 el..
Airflow의 기타 기능 사용해보기 6: 어드민 권한이 있다 해서 접근할 수 있는 api는 아니고, cfg 단에 환경 변수 노출할지 말지(expose_config)가 true로 세팅돼 있어야 가능한. 두번쨰 항목에서 ExternalTaskSensor도 결국 오퍼레이터임 세번째 항목은 대그 간 실행 순서가 아닌 테스크 실행 순서 조정할 수 있는 것들. BranchPythonOperator: 지금 상황에 맞춰 뒤에 어떤 테스크를 호출할지, 실행할지 동적으로 결정할 수 있는. LatestOnlyOperator: 백필할 필요성이 있다 생각하면 실행이 중단되는 오퍼레이터. 예를 들어 하나의 대그에 대해 다양한 성격의 테스크들을 갖고 있다면 앞쪽은 인크리멘탈 업뎃으로 데이터 읽어오고, 뒤쪽 테스크는 지금 시점 기..

7: 이 도커 컴포즈 파일 해석을 좀 듣고 싶어서 찾아 봤음. _PIP_ADDITIONAL_REQUIREMENTS: ${_PIP_ADDITIONAL_REQUIREMENTS:- yfinance pandas numpy oauth2client gspread} 이거 해석: _PIP_ADDITIONAL_REQUIREMENTS란 환경 변수가 존재하면 그 값 읽어다 _PIP_ADDITIONAL_REQUIREMENTS 변수값(: $~ 이하의 _PIP_ADDITIONAL_REQUIREMENTS 말고 맨 왼쪽에 표기된 것이 여기서 지칭하는 '변수'에 해당)으로 세팅하고, 만약 _PIP_ADDITIONAL_REQUIREMENTS라는 이름의 환경변수가 호스트 OS에 세팅 안돼있으면 5개의 모듈을 에어플로 컨테이너가 실행될 떄..

숙제 리뷰 ELT는 이미 있는 테이블들 조인해서 새로운 테이블, 정보 만드는 거라는데...? 5: DISTINCT 로만 중복 제거 처리한 UpdateSymbol_v2 는 이 페이지의 사진같은 문제를 유발할 수 있음. 날짜 기준 유니크 레코드여야 하는데 지금 안그런 상황. DISTINCT 들어간 쿼리문이 한 로우의 모든 컬럼 값을 선택하는 거라, 모든 컬럼의 값이 같아야만 중복 제거 처리를 해주기 때문. 만약 이 dag가 한 장이 끝난 다음장 때'만' 실행되면 그럴 일 없는데, 실수로라도 한 장이 안끝났는데 실행되면 중복 제거 제대로 안되는사태 생길 것. volume 값 등이 다를 것. 이의 해결 방법은 데웨서 제공해주는 업서트 방식 혹은 row number 기준 파티셔닝 윈도우 함수 시퀄문 사용. RDB..

Open Weathermap Dag 구현 먼저 스키마 생성. 완료. 여기서 default값 갖는 created_date 필드는 인크리멘탈 업뎃 때 중복 처리에 쓰임. daily 안에 dt란 필드가 epoch다. 이에 대한 설명은 강의 자료에... 결국 이게 날짜 데이터이므로 사람이 이해할 수 있는 형태로 바꿔야함 음 키 발급 받아서 해도 계속 안되네.. 키 발급 후 2시간 이상 지나야 사용 가능하다는데 만약 그 말이 진짜면 이것때문일듯? 사실 응답 제대로 오고있는지 알고싶은데 알 길이 없네.. 로그 옵션 코드로 지정해줄 수 있나? 암튼 이따 다시 해보고 그때도 안되면 조치를.. 아 로그 못남기면 try except 처리하는게 좋을듯. 200 코드 반환 안하면 에러 발생하게.. 아 이런..강의에서 제공해주..