일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 자소서 빨리 쓰는 법
- 카카오 2020 코딩테스트
- 도커 교과서
- 자소서 시간 줄이기
- Could not open client transport with JDBC Uri: jdbc:hive2://localhost:10000
- Resources are low on NN
- hadoop safe mode
- mac hadoop 3
- mac hive
- hive beeline
- mac hadoop 설치
- hadoop safe mode leave
- mac hive 3
- mac hadoop
- code=0)
- 자소서 빨리
- 이더리움
- 이더리움 #ethereum
- is not allowed to impersonate hive (state=08S01
- 카카오 자물쇠와 열쇠
- hive beeline 설정
- mac hadoop 설정
- 카카오 2020 코테
- hive beeline 에러
- 기업 조사 빨리 하는 법
- Failed to connect to localhost:10000
- 백준 18428
- 자소서 너무 오래 걸림
- hive beeline 실행
- Safe mode is ON
- Today
- Total
목록Data/데엔 데브코스 TIL (21)
A seeker after truth
8단원 코드 자체가 좋음 이를테면 yield, 에러 및 예외처리 파트 등. 그리고 파이썬 패키지 만드는 방법 다루고 있는.. 챕터다. https://github.com/K9Ns/data-pipelines-with-apache-airflow/blob/main/chapter08/dags/custom/ranking.py 이를테면 위 코드에서 pd.NamedAgg란 클래스는 처음봄! logger = logging.getLogger(__name__) 그동안 이걸 안했구낳; 당황스럽
ch7. 외부 시스템과 통신하기 유익한 내용이 너무 많다. 배운게 너무 많다... 장고를 백엔드, cs, 파이썬에 대한 지식과 숙련도를 올리는 수단으로 썼을 때와 동일한 경험을 했다. 코드 차원서도 그렇고, 비슷한 문제를 이미 다른 프로젝트를 통해 경험해봤으며, 그 과정서 생겼던 은연 중의 의문들을 이 책을 통해 해소할 수 있었단 점에서 그랬다. 여기서 외부 시스템 = 에어플로 및 에어플로가 구동되는 시스템 외의 모든 기술. ex) 퍼블릭 클라우드 플랫폼 내 서비스들, spark 클러스터 여기서 다루는 건 데이터 이동 및 변환 작업이 주다. 뿐 아니라 또 MLOps 스러운걸 다룸. 그래서 sagemaker, 포스트그레스, 에어비앤비 데이터(http://insideairbnb.com/)를 사용한다. 하루 ..
1단원 - 그래프 기반 표현은 전체 작업을 하나의 모놀리식(단일) 스크립트 또는 프로세스로 구성되는 게 아니라 파이프라인을 작은 점진적 태스크로 명확히 분리할 수 있다. 전자가 구현 초기엔 그닥 문제 안되지만, 파이프라인 중간 태스크가 실패하면 전체 스크립트를 재실행해야 하기 때문에 비효율적. 그래프 기반 표현은 그 반대. - 에어플로 덕에 여러 시스템 간 데이터 프로세스를 결합할 수 있는 복잡한 데이터 파이프라인 구축이 가능해졌다. - 그림 1.8 12쪽 암기.. - 오퍼레이터와 태스크는 동일한 개념(용어)이다. 2단원 - 도커 컨테이너 활용해 운영 수준에서 격리하면 파이썬 패키지 세트 뿐 아니라 데베 드라이버, gcc 컴파일러 등 의존성 포함해 도커 컨테이너 생성 가능하단 점에 의의. 아, 글고 el..
Airflow의 기타 기능 사용해보기 6: 어드민 권한이 있다 해서 접근할 수 있는 api는 아니고, cfg 단에 환경 변수 노출할지 말지(expose_config)가 true로 세팅돼 있어야 가능한. 두번쨰 항목에서 ExternalTaskSensor도 결국 오퍼레이터임 세번째 항목은 대그 간 실행 순서가 아닌 테스크 실행 순서 조정할 수 있는 것들. BranchPythonOperator: 지금 상황에 맞춰 뒤에 어떤 테스크를 호출할지, 실행할지 동적으로 결정할 수 있는. LatestOnlyOperator: 백필할 필요성이 있다 생각하면 실행이 중단되는 오퍼레이터. 예를 들어 하나의 대그에 대해 다양한 성격의 테스크들을 갖고 있다면 앞쪽은 인크리멘탈 업뎃으로 데이터 읽어오고, 뒤쪽 테스크는 지금 시점 기..

7: 이 도커 컴포즈 파일 해석을 좀 듣고 싶어서 찾아 봤음. _PIP_ADDITIONAL_REQUIREMENTS: ${_PIP_ADDITIONAL_REQUIREMENTS:- yfinance pandas numpy oauth2client gspread} 이거 해석: _PIP_ADDITIONAL_REQUIREMENTS란 환경 변수가 존재하면 그 값 읽어다 _PIP_ADDITIONAL_REQUIREMENTS 변수값(: $~ 이하의 _PIP_ADDITIONAL_REQUIREMENTS 말고 맨 왼쪽에 표기된 것이 여기서 지칭하는 '변수'에 해당)으로 세팅하고, 만약 _PIP_ADDITIONAL_REQUIREMENTS라는 이름의 환경변수가 호스트 OS에 세팅 안돼있으면 5개의 모듈을 에어플로 컨테이너가 실행될 떄..