일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- Safe mode is ON
- 자소서 빨리 쓰는 법
- 이더리움 #ethereum
- mac hadoop 설치
- hadoop safe mode
- mac hive 3
- mac hadoop
- is not allowed to impersonate hive (state=08S01
- hive beeline
- Resources are low on NN
- 자소서 너무 오래 걸림
- 기업 조사 빨리 하는 법
- mac hadoop 3
- 이더리움
- 카카오 2020 코딩테스트
- hadoop safe mode leave
- code=0)
- mac hive
- mac hadoop 설정
- Could not open client transport with JDBC Uri: jdbc:hive2://localhost:10000
- 카카오 자물쇠와 열쇠
- mac hive 설정
- 백준 18428
- Failed to connect to localhost:10000
- 카카오 2020 코테
- hive beeline 설정
- hive beeline 실행
- hive beeline 에러
- 자소서 빨리
- 자소서 시간 줄이기
- Today
- Total
A seeker after truth
데알못이 데이터 분석 프로젝트를 하기 위해 리서치한 내용 총집합 본문
1. 데이터 이해
정형/비정형, 데베, 빅데이터, 데이터사이언티스트 역량, 개인정보 비식별 기술 이렇게만 보면 될 듯
2. 분석 기획, 분석 방법론, 분석과제 발굴 방법론, 마스터 플랜형 분석(장기전을 의미함)
1) 분석 방법론
CRISP-DM 분석 방법론을 비롯한 몇몇 방법론 적혀있음. CRISP-DM 분석 방법론은 이미 정리해둔 내용이 있고, 학교 수업 및 교과서에도 나오는 방법론이니 간단하게 내용을 정리하고 간다.
[CRISP-DM]
(1) 비즈니스 이해
해결할 문제 파악/이해 -->문제 정의, 해결책 정의
적절한 해결책 공식이 나올 때까지 이 과정을 반복한다.
해결책 설계 작업에서 분류/회귀분석, 확률 추정 등의 모델을 이용해 우리가 해결할 수 있는 더 작은 문제로 분할하는 구조화 작업을 수행하기도 한다.
여기서 사용 시나리오에 대해 신중히 생각한다 (결정 분석적 사고)
- 우리가 하려는 일이 정확히 무엇?
- 정확히 어떻게 할 것인가?
- 사용 시나리오 중 어느 부분이 데이터 마이닝 모델을 이루는가?
...를 따지며 사용 시나리오에 대해 생각해보는 동안 실제 목적에 부합하도록 시나리오를 수정할 필요를 느끼며, 여기서 문제 접근을 도와주는 개념적 도구를 사용하기도 하는데, 예를 들어 기댓값 관점에서 비즈니스 문제를 구조화하면 체계적으로 처리할 문제를 데이터 마이닝 작업으로 분할할 수 있다.
(2) 데이터 이해
문제에 정확히 부합하는 데이터가 있는 경우는 거의 없으므로 여러 데이터의 장단점을 파악하고 비교하는 것이 중요하다.
(3) 데이터 준비
분석 기술에서 요구하는 특정 조건을 만족해야 한다. 간혹 가져온 데이터는 분석 기술에서 원하는 형식과 일치하지 않기 때문에 변환해야 하는 경우가 있다. 데이터 형태 조작, 변환.
일반적으로 데이터를 테이블 형태로 변환하고 빠진 값은 유추해서 채우며, 적절한 형으로 변환한다. 수치 데이터를 비교하려면 졍규화, 변환 시 표준 규칙 이용.
일반적으로 마이닝 프로세스 앞 단계에서 후반부에 사용될 변수를 정의하느라 많은 시간을 보내는데, 이 단계에서 인간의 창의성, 상식, 비즈니스에 대한 이해가 매우 중요하다. 데이터 마이닝 해결책의 품질은 분석가가 얼마나 문제를 구조화하고 변수를 정의하는지에 따라 차이가 난다.
(4) 모델링
마이닝을 데이터에 적용하는 초기 단계다. 모델링 결과로 데이터에서 드러난 규칙에 의해 모델의 종류나 패턴이 만들어진다.
(5) 평가
마이닝 결과를 엄격히 평가하고 다음 단계로 넘어가도 되는지 모델의 신뢰성을 확인하는 단계. 어떤 데이터셋이든 자세히 살펴보면 패턴을 알아낼 순 있지만, 신중히 평가해보면 패턴의 오류를 찾아낼 수 있다. 이 단계에선 모델과 데이터에서 추출한 패턴이 진정한 규칙성을 갖고 있는지, 단지 특정 예제 데이터에서만 볼 수 있는 특이한 성질은 아닌지를 확인해야 한다.
+ 원래 비즈니스 목적에 부합하는지 확인
2) 분석과제 발굴 방법론: 상향식, 하향식
말은 간단하지만 구체적인 내용은 읽어볼 가치가 있어보임. 마스터 플랜은 지금 하려는게 아닐 것 같으니 패스.
3. 분석 기법 종류
시각화, 공간 분석, 탐색적 자료 분석, 통계분석, 데이터 마이닝 이건 다 읽어보기
-
위 1번~3번에 해당하는 내용은 wikidocs에 정리된 아래 사이트에서 읽어볼 항목을 정리한 것이다. 따라서 본 내용은 아래 링크에 있다. 예쁘고 이해하기 쉽게 된 포스트가 아니고 큰 그림을 보기 좋은 간명한 자료다.
https://wikidocs.net/book/3558
분석 기법 및 분석 방법론에 대한 내용은 장미라 님의 블로그의 아래 글을 추가로 공부하는 것도 좋다.
<대표적인 데이터 분석 테크닉 30가지 (1/2)>
http://www.dodomira.com/2016/08/19/frequently_used_analyitic_method/
<데이터 분석의 유형 6가지 – 목적에 따라 달라지는 분석 방법>
특히 필자가 관심 있어 하는 네트워크 분석 기법에 대한 포스트는 아래 링크 내용이 좋다. NC 소프트 게임 데이터 분석 블로그의 포스트다.
<네트워크 분석기법을 활용한 게임 데이터 분석 #1, #2>
https://danbi-ncsoft.github.io/works/2018/11/12/network_analysis-1.html
https://danbi-ncsoft.github.io/works/2018/11/12/network_analysis-2.html
그 외 본인이 관심 가거나 필요한 분석 기법이 있으면 포스트가 됐건 서적이 됐건 자료를 더 찾아서 공부하면 좋을 것 같다.
4. 관련 오픈소스(대중적으로 널리 알려진 + 많이 쓰는 초유명 라이브러리 제외)
이걸 정리하자면 뭐 끝도 없을 것이다. 여기서 내용을 기재한 기준은 이 데이터 분석 캡스톤 디자인을 시작하게 된 시점 이후에 발견한 것이자 필자에게 생소한 라이브러리다.
- data-driven document: d3.js
5. 변성윤 쏘카 데이터사이언티스트님 깃허브 자료
워낙 유명하신 분.
https://github.com/Team-Neighborhood/I-want-to-study-Data-Science
위 링크에서 각종 data, 관련 블로그 자료가 도움이 된다.
또 유명하신 다른 분은 하조은 님. 캐글에서 활발히 활동하시는 분이라고 한다. 아래는 깃허브 링크. 데이터 분석 프로젝트로 참고할 수 있는 자료가 많다. 책을 쓰신 적이 있거나 강의라도 찍으신 적이 있는 건가...?
⭐️6. 데이터 분석 포트폴리오!
사실 데이터 분석 포트폴리오를 봐야 데이터 관련 토이/사이드 프로젝트는 어떻게 진행하는지 이해하기가 좋다.
[사이트]
Flowing data 사이트
안수빈 님이 운영하시는 페이스북 페이지 A.I. LookBook에서 발견한 사이트. 본인의 롤모델 사이트라고 하셨다. 짧은 글로 인사이트를 제시하는 형태의 글들이라 구체적인 코드를 알 수 있는 건 아니다.
[예시- 읽어본 것]
도움이 많이 됐던 프로젝트 순으로 나열
- 온라인 뉴스 댓글은 정말 사람들의 목소리일까? - PART2 (파트 1은 18년도에 있었던 것 같다): 아이디어 전개 과정이 기가 막히다.
https://www.pycon.kr/program/talk-detail?id=39
- 국힙 래퍼 네트워크 분석: 온통 네트워크 분석 기법. 내가 지금 하고 싶은 것과 가장 유사함
https://www.slideshare.net/frhyme/ss-181949660/23
- Quantify myself - self 사생활침해
바로 위 국힙 플젝을 했던 사람이 한 파이콘 발표다. 역시 여기도 네트워크 분석이 들어가지만, 그보단 좀더 다양한 방법이 포함되어 있다.
https://archive.pycon.kr/2018/program/25
- 법률 네트워크 분석: 30년간의 변화: 독보적인 도메인에 수준 있는 분석.
https://archive.pycon.kr/2018/program/21
동일 발표자가 2019 파이콘에서 발푤한 자료는 아래 링크.
https://www.pycon.kr/program/talk-detail?id=75
- 파이썬을 활용한 나의 브런치 구독자 분석: 여기도 네트워크 분석 들어감. 딱 가벼운 주제의 토이 플젝으로 볼수 있음.
https://drive.google.com/file/d/0BzXf4sedgwRbV0w4dUFVVExKVGp0elBMbU9CZEhoWXJWWmpZ/view
[예시- 안읽어본 것]
- 파이썬으로 학생 들여다보기
https://archive.pycon.kr/2018/program/32
- 파이썬으로 암을 찾아보자: 데이터로 만드는 의학 이야기
https://archive.pycon.kr/2018/program/84
- Topic Modeling & Word Embedding 그리고 화장품
https://archive.pycon.kr/2018/program/5
- 일반적인 케이스까지 포함한 파이썬을 이용한 의료 물리학 모델링 및 분석의 이해
https://archive.pycon.kr/2018/program/52
- 드론 및 인공위성 영상을 이용한 태양광발전소 입지분석
https://archive.pycon.kr/2018/program/6
- 행복한 연애를 위해 필요한 3가지 조건: 회귀 분석 밭이다.
http://www.dodomira.com/2016/02/07/142/#more-142
- <데이터야 놀자> 2019 발표 세션 자료
- 공공 데이터 포털의 공공 데이터 활용 사례: 너무 자료가 많다.
https://www.data.go.kr/useCase/exam/index.do
[블록체인 주제 대비]
- Parsing Ethereum Database: 지윤님~! 아래 데브 그라운드 사이트로 가면 발표 영상도 찾을 수 있을 듯
https://drive.google.com/file/d/1nozsiF5SWq4m7Js5R_I3wDLQTWV8WcjJ/view
- Elasticsearch와 Python을 이용하여 맨땅에서 데이터 분석하기: 정말 가벼운 주제의 블록체인 데이터 분석 주제
https://drive.google.com/file/d/1QShZENskb1c5PwxcqklnxdtbtrFXze8A/view
[기타]
- financipe: 설대 산공 분의 리스펙 토이 플젝. 데이터 분석 유명 기법 다 들어간 금융 데이터 플젝. 옛날부터 리스펙하는 플젝
http://www.financipe.com/index
[세션 링크 모음]
*파이콘 2019 발표 세션
https://www.pycon.kr/program/talks
* 데브 그라운드 데이터 과학/AI 2019 <- DSTS 처럼 지금 당장 나한테 도움되는 주제는 없었음.
http://52.78.123.153/home_elementor/#
* Data Science is a Team Sports 발표 세션 자료: 데이터 사이언스 팀 문화에 대한 세션이었기 때문에 유용한 자료 없음
아래는 <비즈니스와 데이터 과학> 읽으면서 메모한 비가공 데이터. 후에 본문으로 포함시킬 것
[기타 데이터 과학 작업 기법]
1) 동시 발생과 연관성의 발견(페이스북 좋아요 분석, 거래 데이터, 장바구니 분석 등)
어떤 목적 없이 그저 데이터를 탐색하고자 할 떈 연관성 마이닝이 더 적절한 방법=자율 데이터 마이닝
반면 구체적인 타겟 변수를 알아내려면 감독 문제를 정의하여 감독 데이터 마이닝 즉 감독 세분화 기법을 이용.
페이스북 좋아요는 모든 데이터끼리 서로 무슨 방법인지 하튼 해봐서 연관성을 분석한다. 연관도 점수 기준이 있어서 그 기준을 넘은 것들만 쫙 보여준다. 연관성을 마이닝하는 목적 중 하나가 우리가 잘 모르는 데이터를 탐색하기 위한 것이다.
예를 들어, 회사 고객의 거래 데이터를 탐색하고 강력한 동시 발생 사건들을 조사하면 고객들이 가진 취향 간의 관계를 전체적으로 살펴볼 수 있다. 이걸 염두에 두고 '좋아요' 동시 발생 분석 시, 많은 사람들이 각각 어떤 것을 좋아한다는 사실(이런 관계가 엄청나게 많이 있을 것이다)은 고객들의 다양한 취향과 연관되어 폭넓게 보여줄 것이다.
연관 데이터 마이닝은 당연히 자율 기법이다.
2) 프로파일링: 전형적인 행동의 발견
개인, 단체, 전체 인구의 전형적 행동 특성을 찾아낸다.
ex)
- 이 고객 세그먼트의 전형적 신용카드 사용량은?
- 신용 사기 탐지: 정상적 행위의 특성을 프로파일링하고, 정상적 행동에서 상당히 벗어나는 사례 찾음. 특히 이전에 본 사기 사건과 비슷한 방식의 사례 찾음
이 때 카드 사용량을 프로파일링해서 사기를 찾아내려면 주중/주말의 평균 사용량, 해외 사용량, 판매자와 구입 상품 종류, 의심되는 판매자로부터의 청구 등 복잡한 설명이 요구된다. 행동은 전체 인구, 소규모 그룹, 개인 차원에서 설명할 수 있다.
[주제 예시]
- 카드 사기 탐지
- 스팸 문자 찾아내기
- 미국 의료보험 사기 사건: 사기 탐지 문제랑 다르다. 비즈니스 문제와 데이터 간 관계를 생각해보면 전혀 다른 문제다. 사기꾼이 청구 시스템의 정당한 제공자이거나 사용자고, 올바른 금액이 정확히 얼마가 되어야 하는지 계산해줄 객관적인 별도의 기관이 존재하지 않는다. 청구 데이터에 사기인지 판단할 수 있는 타겟 변수가 없을 뿐만 아니라, 신용카드에서 사용하는 감독 학습 방법을 사용할 수도 없다. 이런 문제는 프로파일링, 군집화, 비정상 행위 탐지, 동시 발생 그룹화와 같은 자율 학습 방법을 사용해야 한다.
'Data' 카테고리의 다른 글
pytorch "Expected all tensors to be on the same device, but found at least two devices, cuda:0 and cpu!" 에러 해결 (2) | 2020.12.10 |
---|