일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- hadoop safe mode leave
- mac hive
- 자소서 빨리 쓰는 법
- 기업 조사 빨리 하는 법
- hive beeline 설정
- hive beeline 실행
- 이더리움
- 자소서 빨리
- mac hive 3
- 카카오 2020 코테
- mac hadoop
- Safe mode is ON
- is not allowed to impersonate hive (state=08S01
- 카카오 자물쇠와 열쇠
- Could not open client transport with JDBC Uri: jdbc:hive2://localhost:10000
- mac hadoop 설치
- 자소서 너무 오래 걸림
- hive beeline
- hive beeline 에러
- 자소서 시간 줄이기
- mac hadoop 3
- Failed to connect to localhost:10000
- 이더리움 #ethereum
- hadoop safe mode
- 도커 교과서
- 카카오 2020 코딩테스트
- mac hadoop 설정
- 백준 18428
- code=0)
- Resources are low on NN
- Today
- Total
목록Data (28)
A seeker after truth
8단원 코드 자체가 좋음 이를테면 yield, 에러 및 예외처리 파트 등. 그리고 파이썬 패키지 만드는 방법 다루고 있는.. 챕터다. https://github.com/K9Ns/data-pipelines-with-apache-airflow/blob/main/chapter08/dags/custom/ranking.py 이를테면 위 코드에서 pd.NamedAgg란 클래스는 처음봄! logger = logging.getLogger(__name__) 그동안 이걸 안했구낳; 당황스럽
ch7. 외부 시스템과 통신하기 유익한 내용이 너무 많다. 배운게 너무 많다... 장고를 백엔드, cs, 파이썬에 대한 지식과 숙련도를 올리는 수단으로 썼을 때와 동일한 경험을 했다. 코드 차원서도 그렇고, 비슷한 문제를 이미 다른 프로젝트를 통해 경험해봤으며, 그 과정서 생겼던 은연 중의 의문들을 이 책을 통해 해소할 수 있었단 점에서 그랬다. 여기서 외부 시스템 = 에어플로 및 에어플로가 구동되는 시스템 외의 모든 기술. ex) 퍼블릭 클라우드 플랫폼 내 서비스들, spark 클러스터 여기서 다루는 건 데이터 이동 및 변환 작업이 주다. 뿐 아니라 또 MLOps 스러운걸 다룸. 그래서 sagemaker, 포스트그레스, 에어비앤비 데이터(http://insideairbnb.com/)를 사용한다. 하루 ..
1단원 - 그래프 기반 표현은 전체 작업을 하나의 모놀리식(단일) 스크립트 또는 프로세스로 구성되는 게 아니라 파이프라인을 작은 점진적 태스크로 명확히 분리할 수 있다. 전자가 구현 초기엔 그닥 문제 안되지만, 파이프라인 중간 태스크가 실패하면 전체 스크립트를 재실행해야 하기 때문에 비효율적. 그래프 기반 표현은 그 반대. - 에어플로 덕에 여러 시스템 간 데이터 프로세스를 결합할 수 있는 복잡한 데이터 파이프라인 구축이 가능해졌다. - 그림 1.8 12쪽 암기.. - 오퍼레이터와 태스크는 동일한 개념(용어)이다. 2단원 - 도커 컨테이너 활용해 운영 수준에서 격리하면 파이썬 패키지 세트 뿐 아니라 데베 드라이버, gcc 컴파일러 등 의존성 포함해 도커 컨테이너 생성 가능하단 점에 의의. 아, 글고 el..
Airflow의 기타 기능 사용해보기 6: 어드민 권한이 있다 해서 접근할 수 있는 api는 아니고, cfg 단에 환경 변수 노출할지 말지(expose_config)가 true로 세팅돼 있어야 가능한. 두번쨰 항목에서 ExternalTaskSensor도 결국 오퍼레이터임 세번째 항목은 대그 간 실행 순서가 아닌 테스크 실행 순서 조정할 수 있는 것들. BranchPythonOperator: 지금 상황에 맞춰 뒤에 어떤 테스크를 호출할지, 실행할지 동적으로 결정할 수 있는. LatestOnlyOperator: 백필할 필요성이 있다 생각하면 실행이 중단되는 오퍼레이터. 예를 들어 하나의 대그에 대해 다양한 성격의 테스크들을 갖고 있다면 앞쪽은 인크리멘탈 업뎃으로 데이터 읽어오고, 뒤쪽 테스크는 지금 시점 기..