데이터 분석 부트 캠프/부트캠프 기자단

[패스트캠퍼스] BDA 부트캠프 9기 기자단_미니 프로젝트

이-다은 2023. 9. 26. 23:05

 

부트캠프에서는 최종 프로젝트인 기업 연계 프로젝트 이전에 세 번의 미니 프로젝트를 진행한다.

 

 Q. 미니 프로젝트란? 

부트캠프 과정 중 파이썬, SQL, 태블로를 배운 이후 직접적으로 Tool을 활용해 100% 이해하자는 목적으로 프로젝트가 진행된다.

 

 Q. 조 편성 방식 

1. 수강생들의 도메인 선택

프로젝트에 앞서 매니저님이 조 편성을 위한 설문조사를 진행하신다. 이때 관심 분야가 무엇인지 생각하고 선정하면 분야가 같은 사람들끼리 팀이 이루어진다. 많게는 9개(파이썬), 보통은 적게 2개(SQL), 4개(Tableau)의 도메인이 주어진다.

2. 수강생들의 개인별 선호도 조사

온라인 강의이다 보니, 온라인 또는 오프라인 미팅을 선호하는지도 사전에 물어보신다. 또 리드형인지, 팔로워형인지도 물어보시는데 이렇게 세세한 부분까지 반영되는지는 모르겠고 궁금하다!!ㅎ

3. 최종 조 편성

상기 과정으로 사전조사가 진행고 이틀,사흘 정도 후에는 조 편성표가 올라온다. 다들 누군지 모르긴 하지만 어떻게 팀이 구성될지 매번 두근두근했다

 

 Q. 프로젝트 진행 방식 

1. 조별 미팅

상당한 기간동안 팀원들이랑 이야기하면서 분석을 이어가야 한다. 온라인 미팅이다 보니 소통이나 업무 공유를 효율적으로 해야 한다.

 

소통의 경우 이렇게 슬랙으로 조별 톡방을 파서 대화하면 된다. 슬랙이 아주 편한 거 같다!!

 

업무 공유는 주로 노션 / 구글 Docs / 공유 프레젠테이션 등을 이용했다.

마이크로소프트의 경우 공유 프레젠테이션이 되는 걸 처음 알았는데 매우 유용하다. 다 같이 ppt를 만드니 꼬이지 않고 좋다. 그리고 캔바 (https://www.canva.com/ko_kr/) 에서도 공동 작업도 되고 시각 효과도 자연스럽게 적용돼서 짧은 시간 대비 고퀄리티의 ppt를 만들 수 있다

 

2. 강사님과의 미팅

프로젝트를 진행하면서 강사님이 많은 피드백을 주신다. 격일로 1회 또는 2회 정도로 미팅을 갖는다. 소회의실로 강사님이 들어오셔서 방향성을 평가해주시거나 기술적으로 질문이 있을 때 알려주신다

 

3. 최종 발표

프로젝트를 마치면 최종 발표를 하며 마무리한다. 팀별 20분 정도의 발표 시간이 주어진다. 발표는 한 명이 하든, 다같이 하든 제한은 없다. 파이썬에서는 조장 1명이 몰아서 했다면, 점점 팀원들 모두가 돌아가면서 발표하는 트랜드를 보였다ㅎㅎ 파이썬 때 혼자 20분을 몰아하니 힘들었나보다

최종 발표날은 언제나 재밌었다. 원래는 발표 극혐론자였지만 온라인이다보니 큰 부담도 없었고, 다른 팀이 어떻게 했는지 살펴보는게 흥미진진하다


그 동안 진행한 미니 프로젝트의 전개와 결론을 포트폴리오 형식으로 작성하며 정리해보고자 한다.

#1. 프로젝트를 통한 python 실력 완성하기

파이썬 프로젝트에 앞서 구글 폼을 통해 어느 도메인에 관심을 두고 있는지 설문 조사를 진행했고, 관심 도메인 별로 팀이 편성되었다. 나는 공정 관련 분석을 해보고자 했지만 대부분 데이터 분석가를 희망하고 있었던지라 어쩔 수 없이 그 분야를 하게 될 줄 알았다. 그런데 나 이외에도 3명이나 반도체 쪽 공정 직무를 희망하고 있어 팀이 구성되었고 직무 관련하여 프로젝트를 진행해서 유익했다.

 

 프로젝트 시작 전 설문 조사

7.14(금)부터 진행될 <미니 프로젝트 : 데이터 분석> 팀구성을 하는데 있어서, 참고하기 위해 간단한 설문을 진행하려고 합니다.
이번 미니 프로젝트는 자유 주제 혹은 저희가 제공해드리는 데이터셋 중에서 선택하여 진행하게 됩니다.  짧은 기간이지만 지금까지 배운 내용들을 적용해본다고 생각으로 프로젝트에 참여해주시면 감사하겠습니다. 파이널 프로젝트를 위한 준비라고 생각하시고 좋은 경험이 되기를 바라고 또 기대하겠습니다.

관심있는 도메인을 선택해주세요(1순위)
*선택지에 없다면 기타에 작성해주시면 감사하겠습니다 :)
1 - 이커머스
2 - 게임
3 - 스포츠
4 - 경영/인사/영업관리
5 - 금융
6 - 미디어
7 - 공공분야
8 - 무관
9 - 기타:

 

- 프로젝트 내용

Tool: Python

0. 개발 기간: 2023.07.14~2023.07.25 (12일)

1. 개발 인원: 4인

2. 주제: 반도체 박막 두께 분석을 통한 공정 이상치 탐색 

3. Object

  • 머신러닝 개발로 반사율로 정확하게 박막 두께를 예측하며 공정 결과(이상) 진단

 

4. Key action

  • 4층 박막의 layer별 두께 - 반사율의 관계를 EDA 분석하여 상관성 판단
  • 독립변수, 종속변수 지정 이후 머신러닝 모델링 진행
  • 하이퍼파라미터 최적화, 앙상블 기법을 통한 오차 지표(MAE) 개선

 

5. My action

  • 4층 박막의 총 두께 – 평균 반사율에 대한 scatter plot 생성 시 큰 상관성을 보이지 않아 EDA 근거가 부족했음. 두께-반사율간 뚜렷한 양의 상관관계를 가질 것으로 예측했으나 상반되는 결과였음.
  • 이 때, 두께가 얇은 그룹(A)과 두꺼운 그룹(B)으로 나눠 각각에 대한 파장별 반사율 그래프를 비교하자 그룹 간의 추이가 다른 걸 확인하며 근거 보충

 

- 최종 ppt 및 기타 자료: 10조 ppt_final.pptx

 

- 프로젝트 성과

프로젝트 이후에는 다음과 같은 채점표도 받아서 최종 피드백 및 평가도 받을 수 있다.

 

 프로젝트 채점표


#2. 프로젝트를 통한 SQL 실력 완성하기

SQL 프로젝트를 위해 처음으로 마케팅과 이커머스 중의 선택 과정이 주어졌다. 마케팅보다는 물품을 관리하는 이커머스 쪽이 생산관리 연구랑 상대적으로 비슷한 듯 하여 이커머스를 선택했다.

 

 프로젝트 시작 전 설문 조사

다가오는 8/14(월)부터 진행될 <프로젝트를 통한 SQL 실력 완성> 팀구성을 위해 간단한 설문을 진행하려고 합니다.
SQL 미니 프로젝트는 강사님께서 현업의 데이터셋과 가장 유사한브라질 Olist E-commerce 데이터셋을 기반으로
작업해주신 SQL 데이터베이스를 가지고 진행되는 프로젝트입니다. 
짧은 기간이지만 현업에서의 업무 패턴과 유사하게 강사님께서 진행해주시기에 이번 프로젝트도 최선을 다해 참여해주시면 감사하겠습니다.

데이터셋 선택
1 - Olist E- Commerce 데이터셋

 : 브라질의 대표적인 온라인 상정에서 수집한 주문, 제품, 고객 등에 대한 데이터로 구성되어 있으며 고객 세분화, 판매, 주문 상태 분석 등 다양한 측면에서 분석하게 됩니다.

2 - Marketing Funnel by Olist 데이터셋
 : 고객의 마케팅 퍼널 정보를 담고 있으며 리드 단계부터 고객 변화까지의 과정 및 전환율, 구매시점에 대한 부분 등의 분석을 진행하게 됩니다.

 

- 프로젝트 내용

Tool: Python, SQL

0. 개발 기간: 2023.08.14~2023.08.22 (9일)

1. 개발 인원: 3인

2. 주제: E-commerce (Olist 신규 물류 센터 확충을 위한 최적의 입지 선정)

3. Object

  • olist의 이커머스 데이터셋에서 필요한 데이터를 추출하고 이를 분석하며 신규 물류 센터의 요충지를 제안

 

4. Key action

  • 1차 분석으로 무게, 규격의 영향을 배제한 운임비/배송 기간/지연 기간을 State별로 분석하며 신규 물류 센터가 필요한 지역을 추출
  • 1차 분석 결과 필요 지역 10개 타겟팅
  • 2차 분석으로 신규 유입자수, 제품 매출을 분석하며 타겟팅 지역에 신설 이후 타당한 투자 효과를 불러오는 지역을 추출
  • 2차 분석 결과 최종적으로 신규 물류 센터가 필요하고 투자 효과도 내는 지역 3개 선정 및 요충지로 제안

 

5. My action

  • 신규 물류 센터를 위한 입지를 선정할 때 방향성을 잡지 못해 방황했음.
  • 이 때, 신규 센터의 필요성/매출 타당성을 기반으로 지역을 선택하는 로드맵을 제안하며 풀어감.

 

- 최종 ppt 및 기타 자료: https://darlo-ol.tistory.com/33

 

- 프로젝트 성과 및 회고

SQL의 경우 9일이라는 짧은 시간 내에 이뤄졌다. 말이 9일이지 주말 이틀, 발표일 하루 껴서 6일만에 프로젝트를 해야 됐다. 그마저도 하루 분석-> 하루 중간 발표 및 피드백 -> ... 형식으로 이뤄지자 시간이 없었고 주제도 자꾸 바뀌게 되었다.

 

이커머스 데이터를 통해 신규 물류 창고를 고찰해보자! 라는 주제 선정은 했고, 적절한 주제도 찾았지만 방법론을 찾는데에 난항을 겪었다. 어떤 기준으로 분석해서 신규 물류 창고를 위한 지역을 선정할지 감이 안 잡혔다. 그렇게 발표일 하루?이틀 전까지 망,,했따,,,, 싶었지만 그래도 팀원들과 으쌰으쌰하면서 괜찮은 방법을 찾고 얼추 그럴싸해 보이는 자료도 만들었다.

 

어자일 이었나,,? 데이터 분석 현업에서는 이와 같은 형식으로 진행된다는 강사님의 판단 하에 매우 빡센 프로젝트를 진행했다. 힘들었긴 했어도 짧은 시간 내에 결과물을 내서 마냥 힘든 경험만은 아니었다! 그리고 업무 총량의 법칙이라고 1주일이든 1달이든 결국 결과물은 비슷했을 것도 같다. ㅎㅎ

 

 


#3. 프로젝트를 통한 Tableau 실력 완성하기

태블로 프로젝트에서는 HR / 항공 / 서울 APT / 건강조사라는 네 가지 데이터셋 중의 선택이 필요했다.

여행을 좋아해서 뭔가 항공 데이터가 끌리는데,,? 싶더니 최종적으로도 항공 데이터를 선택했다. 데이터도 대량데이터라 이것저것 다뤄볼 수 있을 것 같았다

 

 프로젝트 시작 전 설문 조사

다가오는 8/31(목) 혹은 9/1(금)부터 진행될 <프로젝트를 통한 Tableau 실력 완성> 팀구성을 위해 간단한 설문을 진행하려고 합니다.

총 4가지의 데이터셋
HR 퇴사자/항공/서울시 APT/지역사회 건강조사
중 하나를 선택해 3인 혹은 4인으로 진행하게 됩니다.

강사님이 말씀해주셨던 것처럼 스토리텔링과 시각화를 중점으로 두고 이번 프로젝트가 진행되오니,
어떤 관점으로 기획하고 스토리를 끌어가는지 논리는 탄탄한지가 이번 프로젝트의 중요한 부분이 될 것 같습니다.

이번 프로젝트 또한 좋은 경험이 되기를 바랍니다.
제출해 주신 설문조사를 바탕으로 팀이 구성될 예정입니다.

 

- 프로젝트 내용

Tool: Tableau

0. 개발 기간: 23.08.30~23.09.13

1. 개발 인원: 3인

2. 주제: 코로나 이후, 여행지 다각화를 위한 신규 노선 제안

3. Object

  • 코로나 이후 이색 관광에 대한 수요가 높아지는 시점에 맞게 현재 직항선이 없는 신규 노선 취항 제안
  • Flight 데이터를 활용하여 시각화 근거 마련

 

4. Key action

  • 분석 1. 신규 노선이 불필요한 지역/직항편 구축의 가능성이 낮은 지역/투자 이후 매출이 적을 지역 배제
    • 각각 승객수 비중/결항률 및 지연률/승객 증감률 시각화하며 근거 마련
  • 분석 2. 일본 5개 공항(신치토세, 나리타, 하네다, 간사이, 후쿠오카)의 노선 스케줄과 한국 4개 공항(인천, 김포, 김해, 제주)의 노선 스케줄을 비교
    • 한국에 19-21년 존재했으나 코로나 영향으로 현재 시점 폐쇄된 노선 중 현재 일본에 존재하는 노선 선정
  • 1,2의 분석으로 대양주 3개 지역, 서남아 1개 지역 타겟팅한 후, 승객 증감률 및 승객 규모를 시각화하며 대양주 타겟팅

 

5. My action

  • 지역 선정 시 지역을 막연히 타겟팅하기 어려울 때, 일본 공항 노선을 reference 삼자는 의견 제안

- 최종 ppt 및 기타 자료: 4조_태블로 프로젝트_여행지 다각화를 위한 신규 노선 제안.pptx

 

-프로젝트 성과 및 회고

발표하며 다른 항공 데이터는 어떻게 다뤘을까 궁금했다. 더불어 같은 데이터를 다루니 주제가 중복될지 걱정도 됐다. SQL 이커머스의 경우 워낙에 많은 조가 참여하니 겹쳐도 그만~이겠지만, 태블로는 3개의 조만 공통적으로 데이터를 다루다보니 중복되면 치명적일 것 같았다

 

이 부분에 대해서는 우리 조가 신박한 주제를 찾은 거 같았다. 다른 두 조 모두 flight 데이터를 파게 되면서 LCC vs FSC 구조로 갔다면, 우리 조는 다른 데이터를 마구 끌어와서 '신규 취항지 제안'이라는 주제를 분석할 수 있었다.

 

데이터를 끌어오는 과정이 노가다라 힘들었지만, 그만큼 유의미한 결과를 내었기에 헛된 작업은 아니었구나 싶었다!! 그리고 이런 분석을 하니 호주!! 너무 가고 싶었다!!!!

 

 

 

이렇게 세 번의 미니 프로젝트를 마무리했다. 언제 프로젝트를 세 개나 끝내나했지만 호다ㅏ닥 끝나버렸다

뭔가 얼레벌레 바쁘다바빠 하면서 따라가다 마무리가 되었는데, 결론적으로 점수도 좋게 받고 기여도 많이 한 듯 하여 뿌듯하다. 언제 또 이렇게 데이터를 많이 다뤄볼까 싶다

물론 관심 있는 도메인이 아닌 것은 아쉽긴 하다. 하지만 데이터 분석가라는 직무를 향하는 부트캠프라서 '공정 데이터'라고 떡하니 있는 것도 웃길 거 같다. 이 부분은 개인적으로 해봐야 겠다고,,,계속 생각해보지만 게으르고 자소서 낼게 너무 많다=.=

 

\   끝 !!!   /