일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- hive beeline 설정
- mac hadoop 설치
- hadoop safe mode
- 자소서 시간 줄이기
- hadoop safe mode leave
- mac hive 3
- mac hadoop
- 자소서 빨리
- 이더리움
- 백준 18428
- 카카오 자물쇠와 열쇠
- Failed to connect to localhost:10000
- is not allowed to impersonate hive (state=08S01
- 기업 조사 빨리 하는 법
- mac hadoop 설정
- mac hadoop 3
- 자소서 너무 오래 걸림
- Could not open client transport with JDBC Uri: jdbc:hive2://localhost:10000
- hive beeline 에러
- Resources are low on NN
- code=0)
- hive beeline 실행
- 카카오 2020 코딩테스트
- hive beeline
- 도커 교과서
- mac hive
- 카카오 2020 코테
- Safe mode is ON
- 이더리움 #ethereum
- 자소서 빨리 쓰는 법
- Today
- Total
목록Data/데엔 데브코스 TIL (39)
A seeker after truth
Airflow의 기타 기능 사용해보기 6: 어드민 권한이 있다 해서 접근할 수 있는 api는 아니고, cfg 단에 환경 변수 노출할지 말지(expose_config)가 true로 세팅돼 있어야 가능한. 두번쨰 항목에서 ExternalTaskSensor도 결국 오퍼레이터임 세번째 항목은 대그 간 실행 순서가 아닌 테스크 실행 순서 조정할 수 있는 것들. BranchPythonOperator: 지금 상황에 맞춰 뒤에 어떤 테스크를 호출할지, 실행할지 동적으로 결정할 수 있는. LatestOnlyOperator: 백필할 필요성이 있다 생각하면 실행이 중단되는 오퍼레이터. 예를 들어 하나의 대그에 대해 다양한 성격의 테스크들을 갖고 있다면 앞쪽은 인크리멘탈 업뎃으로 데이터 읽어오고, 뒤쪽 테스크는 지금 시점 기..
7: 이 도커 컴포즈 파일 해석을 좀 듣고 싶어서 찾아 봤음. _PIP_ADDITIONAL_REQUIREMENTS: ${_PIP_ADDITIONAL_REQUIREMENTS:- yfinance pandas numpy oauth2client gspread} 이거 해석: _PIP_ADDITIONAL_REQUIREMENTS란 환경 변수가 존재하면 그 값 읽어다 _PIP_ADDITIONAL_REQUIREMENTS 변수값(: $~ 이하의 _PIP_ADDITIONAL_REQUIREMENTS 말고 맨 왼쪽에 표기된 것이 여기서 지칭하는 '변수'에 해당)으로 세팅하고, 만약 _PIP_ADDITIONAL_REQUIREMENTS라는 이름의 환경변수가 호스트 OS에 세팅 안돼있으면 5개의 모듈을 에어플로 컨테이너가 실행될 떄..
숙제 리뷰 ELT는 이미 있는 테이블들 조인해서 새로운 테이블, 정보 만드는 거라는데...? 5: DISTINCT 로만 중복 제거 처리한 UpdateSymbol_v2 는 이 페이지의 사진같은 문제를 유발할 수 있음. 날짜 기준 유니크 레코드여야 하는데 지금 안그런 상황. DISTINCT 들어간 쿼리문이 한 로우의 모든 컬럼 값을 선택하는 거라, 모든 컬럼의 값이 같아야만 중복 제거 처리를 해주기 때문. 만약 이 dag가 한 장이 끝난 다음장 때'만' 실행되면 그럴 일 없는데, 실수로라도 한 장이 안끝났는데 실행되면 중복 제거 제대로 안되는사태 생길 것. volume 값 등이 다를 것. 이의 해결 방법은 데웨서 제공해주는 업서트 방식 혹은 row number 기준 파티셔닝 윈도우 함수 시퀄문 사용. RDB..
Open Weathermap Dag 구현 먼저 스키마 생성. 완료. 여기서 default값 갖는 created_date 필드는 인크리멘탈 업뎃 때 중복 처리에 쓰임. daily 안에 dt란 필드가 epoch다. 이에 대한 설명은 강의 자료에... 결국 이게 날짜 데이터이므로 사람이 이해할 수 있는 형태로 바꿔야함 음 키 발급 받아서 해도 계속 안되네.. 키 발급 후 2시간 이상 지나야 사용 가능하다는데 만약 그 말이 진짜면 이것때문일듯? 사실 응답 제대로 오고있는지 알고싶은데 알 길이 없네.. 로그 옵션 코드로 지정해줄 수 있나? 암튼 이따 다시 해보고 그때도 안되면 조치를.. 아 로그 못남기면 try except 처리하는게 좋을듯. 200 코드 반환 안하면 에러 발생하게.. 아 이런..강의에서 제공해주..
보호되어 있는 글입니다.
웨ㅂ상에 있는 csv 를 복제해 온 담에 redshift에 적재하는 과정 그 자체를 자동화한다. 이걸 API 등 백엔드 활용해서 하는 건 다른 단계에서 한다...? 앞에서 나왔듯 dw는 프라이머리키의 고유성 보장 안하니 같은 값 갖는 레코드들이 다수 존재할 수 있다. 이걸 어케 지켜주느냐 그게 결국 데엔의 책임이고, 이게 멱등성 보장함에 있어 중요한 포인트 된다는 거. 실습 문제 해결 포인트 1. 헤더도 데이터로 적재돼버린 것 2. full refresh (delete 한번 수행 후 insert 반복) 문제: 테이블 커지면 사용 불가능한 방법(단순해서 장점이긴 함), 중간에 에러나면 데이터 정합성 깨져버림, 이 일련의 과정을 트랜잭션으로 정의 incremental update: 데이터 소스 커지면 쓸 수..