🐥

데이터 뭐시기 초급 강좌들을 모두 수강한 당신께

🚧
왕초보의 벽을 넘어선 당신! 근데... 이제 뭘 해야하죠?
책과 강좌 등을 통달하여 이제 비로소 왕초보라는 딱지를 뗀지 어느덧 이틀차.
혼자서 공부하는 방향을 정할 줄 알고, 모르는 걸 찾아 나서는 단계부터 우리는 그들을 '중급자'라고 부릅니다.
그런데 그때부터는 어떻게 공부를 이어나가야 할까요? 그 방법들을 소개합니다.
*데이터 공부 초급을 위한 강좌 소개는 아래 포스팅을 참고해주세요 👇
목차 —
1. 데이터에 목마른 사슴이 : 케글과 같은 플랫폼들
드리겠습니다 데이터
강좌나 교재는 기본적으로 데이터셋을 제공하고, 그를 바탕으로 학습을 이어 나갑니다.
이제 배운 내용들을 직접 써먹으려 한다면, 바깥에서 데이터를 구해야겠죠? ⛏
흔히 찾게 되는 데이터의 기준들이란 다음과 같습니다
1.
머신러닝을 돌릴 만큼, 혹은 샘플의 개수가 30개 정도는 거뜬히 넘을 만큼 큰 데이터
2.
철수와 길동이가 등장하는 가상의 데이터가 아닌, 어딘가에서 직접 쓰였던 실제 데이터
3.
수많은 수작업 정리가 필요하지 않은, 비교적 깔끔하게 구성 된 데이터
👉 우리에겐 케글이 있다
최근에는 아예 케글을 가지고 교육자료를 만드는 플랫폼이 많아 미리 알고 있을 가능성도 높음
수많은 머신러닝, 딥러닝, 단순 분석용 데이터 셋들이 무료로 제공되며 분석 및 예측 성적을 통한 공모전 형태로 진행된다
모범 제출물(우승작)들을 눈여겨 보면서 눈팅 공부를 해도 좋음
공모전 데이터셋은 다음과 같은 맹점이 있으니 주의하십시오 😠
1.
당신이 취업 후 마주할 데이터는 결코 플랫폼을 통해 얻은 데이터 만큼 깔끔하지 않다
→ '더러운' 데이터 전처리 및 후처리 작업 경험이 결국 당신의 실무 실력을 키우는 것입니다
2.
케글 스코어 및 공모전 경험은 소중하지만 전부가 아니다
→ 취업을 위해서라면 못할 것이 없는 취준생들이지만, 공모전에만 목숨을 걸 필요는 없습니다. → 데이터 활용에 대한 다양한 경험을 쌓게 만들어 줄, 더 다양한 종류의 활동들이 주변에 많이 있습니다.
3.
하지만 더 큰 맹점이란 ... 어차피 고수들은 공모전 나가도 잘한다는 것 이 아닐까...
2. 밥값을 하자 : EDA와 모델링
사실 데이터를 가지고 일을 한다는 것은 정말 다양한 종류가 있습니다 😓
(데이터 적재, 관리, 수집, 계량 ... )
하지만 가장 기본 소양이 되는 역량을 이해하고, 이를 할 줄 알아야 데이터 관련 교육비에 투자한 값을 회수했다고 할 수 있겠습니다.
그 기본 소양으로는 뭐가 있을까요?
1.
데이터 EDA (Exploratory Data Analysis) - 탐색적 데이터 분석
→ 수집한 데이터가 어떻게 생겼는지를 파악합니다. (피쳐의 종류, 분포, 결측치 등을 파악)
→ 데이터의 꼴을 보니 각 데이터 간의 연관고리는 없는지 (제거해야 좋을지 이용해먹으면 좋을지 등을 판단)
등을 파악하는 전반적인 작업입니다.
이를 위해 그래프를 그려보면서 데이터 시각화를 하기도 하고, 기술 통계 (평균, 분산 등을 내어 보는 것) 패키지를 사용하기도 합니다. 📊
말 그대로 탐색전이죠? 사실 데이터를 파악하는 가장 기초적인 수준의 단계랍니다.
케글에 EDA라고 검색했을 뿐인데
2.
데이터 모델링
→ 데이터 파악이 끝났으면, '이 데이터는 이런 패턴을 가질 것이야' 라는 가정을 하기 시작 📈
→ 이를 바탕으로 '분류 및 예측'해서 활용하기도 하고(주로 머신러닝), '경향 자체를 요약'하는 용도로 쓰기도 합니다
모델이라는 말을 듣고 '그게 뭔데?' 라고 처음에 생각했지만 시간이 지나자 자신도 밥 먹듯이 "모델"이라는 단어를 사용하고 있는 자신을 보게 될 것입니다. 🤗
그만큼 모델링은 자주 사용하는 개념이니까요.
👉 예시로 모델링 이해하기
1) 분석가는 아마존 쇼핑몰 리뷰 데이터를 분석하기 시작
2) "100$ 이상의 비싼 제품은 저렴한 제품에 비해 리뷰의 길이에 리뷰의 유익함이 더 큰 영향을 받는 거 같다" 라는 가설을 세움
3) 이는 조절효과(Moderating effect)라는 통계적 기법을 사용하는 모델링이 필요하다고 판단
4) 조절효과 모델링을 데이터에 적용하여 결과를 측정하여 비교
5) 가격(100$ up & down)이라는 조절 변수가 [ 리뷰의 길이 → 리뷰의 유익함 ] 사이에 영향을 주는 경향이 있음을 확인함
→ 이때 "조절효과 모델링"이 아마존 리뷰 데이터 분석에 활용된 것이라 할 수 있습니다.
아마존 리뷰의 현상에 대한 일부를 데이터를 기반으로 '이해'하는 과정이 이러한 모델링을 거쳐 이루어집니다
제품 가격에 따른 온라인 리뷰 유익성 결정 요인에 관한 연구 - 백현미,안중호,하상욱(한국전자거래학회지 제16권 제3호)
3. 선배님 도와줘요 : 데이터 컨퍼런스에 기웃거리기
자신이 시원찮을수록 컨퍼런스에 가자 (꽉선생의 일기 241편)
주변을 둘러보면 자신이 배운 노하우를 공유하고자 하는 천사들이 많습니다. 👼
걸음마 공부를 마무리했다면, 이제 컨퍼런스에서 들려오는 단어들이 무엇인지 이해가 되기 시작합니다.
즐거운 마음으로 데이터 컨퍼런스, 파이썬 컨퍼런스, 통계 학술회 등에 기웃거려 보세요.
어디서도 얻을 수 없는 현장의 생생한 삽질담 , 알지 못했다면 나도 밟았을 똥에 대한 꿀팁을 잔뜩 겟할 수 있습니다.
1.
연중 내내 컨퍼런스는 쏟아집니다! 양질의 컨퍼런스에 참가 신청 🏄‍♀️
데이터야놀자 파이콘 리틀빅데이터 RUCK(R 한국 유저 컨퍼런스) 등 다양합니다
컨퍼런스마다 추구하는 노선과 컨셉이 다양하기 때문에 내 상황과 취향에 맞는 프로그램을 잘 골라보세요
대표적인 이벤트 검색 플랫폼 다음과 같습니다
festa 이벤터스
2.
가까운 시일 내에 행사가 없다면, 과거 행사 발표 영상/자료만 스캔해도 충분 🧘
데이터야놀자
파이콘
많은 천사들의 도움을 받았다면, 훗날 기술 발표를 통해 여러분도 누군가의 천사가 되어보는 것은 어떨까요?
4. 에라 모르겠다 내가 직접 한다 : '위대한' 생활 데이터
데이터는 남들이 전문적으로 만들어 둔 것만 써야한다는 법은 없습니다.
일상 생활에서 우리가 마주하는 수많은 소재가 사실 데이터화할 수 있고, 모델링이 적용 가능한 대상들입니다.
직접 발로 뛰고 손으로 그 데이터들을 모아, 나의 역량 연습에 활용해 보면 어떨까요?
하지만 대학원에 간다면 ...? 🤭
어떤 프로젝트들이 있을까?
1.
지하철 탑승자들의 외모와 특성을 기록해 하차 예측을 하는 프로젝트 (직접 데이터를 모으고 분석까지)
이제는 고전이자 전설로 남아버린 지하철 역 하차 예측하기 사이드 프로젝트
5. 그 다음 단계를 찾아서 🔭
요즘 말하는 소위 '데이터 공부'를 성실하게 수행해 나갔다면 아마 여러분은 다음과 같은 상태일 것입니다. 🎓
내 손에 딱 길이 든 데이터 분석 도구들이 생깁니다.
ex 1. 여러 언어를 배워도 내가 가장 숙달되어 있는 프로그래밍 언어가 정해짐
ex 2. 시각화 툴에 대해 여러가지를 배움 → 주요 기능은 그 툴들이 모두 지원해주나 유독 내게 편한 툴이 생김
낯선 기법/개념/코드/API를 만나도, 비슷한 개념들을 공부해 본 경험을 바탕으로 스스로 구글링을 통해 모르는 걸 찾아 보고 감을 익힐 수 있습니다.
ex. 머신러닝 평가 기법 중에 MAPE라는 개념이 낯설지만 MAE를 알고 있기 때문에 구글링하면 어렵지 않게 프로세스 전반적으로 이해가 감
데이터를 보고 다루는 것이 비즈니스, 학계에서 어떻게 사용되는지 전반적으로 이해를 할 수 있습니다.
ex. 각 직군(마케터, 데이터 엔지니어 등)에서 데이터를 주로 어떻게 활용하는지 파악이 되고 누군가의 JOB을 들었을 때 대략 무슨 일을 하는지 그려짐
그렇다면 ... 이제 다음 단계에 대해서 고민을 해야 할 때입니다 🧐
내가 '나름' 전문 분야라고 부르며, 남들보다 더 자세히 알고 노하우와 짬에서 나오는 바이브가 형성될 분야를 정하고 도메인 지식을 갖추는 것
친절하지 않은 형태로 제작된 고급스러운 정보를 찾고 수용하는 능력을 키우는 것 (학술 논문, 번역을 거치지 않은 원작자의 아티클, 타인이 제작한 어플리케이션의 코드를 바로 뜯어보는 경우 등)
'데이터 드리븐 = 전지전능' 에 대한 환상을 깨는 동시에, '결국 실무에서는 아무 의미 없더라' 라는 회의론에 빠지지 않는 것
내가 배운 것을 남들에게 쉽게 설명해 줄 수 있는 능력과, 나와 경험이 다른 사람의 로직과 판단을 그 사람 입장에서 헤아릴 줄 아는 이해력을 키우는 것
(다양한 영역의 사람들과 커뮤니케이션과 설득 능력을 키우는 것)
"... 아 정말 중요한 것이긴 한데 ..."
위 내용을 읽어보면 아시겠지만, 사실 새로운 것은 없습니다.
다만 가장 중요한 것들만이 마지막(?) 단계에서는 남아있을 뿐입니다.
그리고 우리가 고민하는 이유는, 중요한 것 일수록 누군가의 강좌나 책으로 익힐 수 없다는 걸 알기 때문일 것입니다. 🤯
모두 직접 사람들과 마찰을 겪어보면서, 혹은 스스로 집중력과 지구력을 요하면서 긴 경험을 통해서만 얻어갈 수 있기 때문입니다.
🙋‍♂️ 김문과의 데이터
직접 공부한 데이터 분석 · 활용법을 기록합니다.
포스팅에 대한 Q&A 및 다양한 논의를 기다립니다.
contact : 우하단 메신저 버튼 or e-mail
Today