데이터 분석 부트 캠프/학습 일지

[패스트캠퍼스] BDA 부트캠프 학습일지_1주차

이-다은 2023. 6. 23. 11:24
1주차 (0619-0623)
패스트캠퍼스 데이터 분석 부트캠프

 

 OT 

시작에 앞서 OT를 들으며 수료기준, 출석체크 방법, 강의 계획표 등을  안내 받았다

 

수료 기준

  • HRD-Net: 출석률 80% 이상
  • 패스트캠퍼스: [출석률 20%, 퀴즈 20%, 일지 30%, 프로젝트 30%] 중 80% 이상

패스트 캠퍼스 수료 시 [온라인 강의 6개월, 패스트러너 커뮤니티 이용, 30일 취업 집중 관리]의 혜택이 있으니 열심히 수강해야 겠다

 

출석체크 방법

  • Zoom 강의: Zoom 출첵 9, 13, 18시 + QR 9, 18시
  • 온라인 강의: Zoom 출첵 9, 13, 18시 

Zoom 출첵의 경우 해당 시간에 Zoom에 참여하면 되고,

QR의 경우 입실시 9시 10분까지, 퇴실시 5시 50분부터 HRD 앱으로 체크하면 된다.

 

강의 계획표

파랑: Zoom 강의 / 검정: 온라인 강의 / 초록: OT, 취업패키지 등 기타 강의

강의를 듣기 전에는 9-18시 풀로 Zoom 강의가 구성될 줄 알고 겁먹었는데 온라인 강의도 계획되어 있고, 16시 정도에는 마무리 되어서 다행이라고 생각했다.

 

Zoom은 시간에 맞춰 Zoom 회의에 참석하면서 실시간으로 들으면 되는 강의이고,

온라인 강의는 패스트캠퍼스 온라인 강의장에서 그날 짜여진 선택/필수 강의를 들으면 된다

 


 

 빅데이터 이해&데이터 리터러시 함양하기(오수은 강사님) 

첫 실시간 강의로는 빅데이터가 무엇인지, 또 실무에선 어떠한 방향으로 빅데이터 기반 분석이 나타나는지를 배웠다.

 

 

전반적으로 다양한 분야에서 데이터를 분석하기 위해

분석 기획 -> DATA 수집 및 전처리 -> 분석: EDA / 모델링(머신러닝, 딥러닝, 통계 등) -> insight 도출 의 과정을 걸친다

 

그 중 강사님은 insight 도출을 가장 강조하셨는데, 인공지능을 분석 장비로만 사용하고 이후 분석 결과를 근거로 어떠한 처리/해결을 할지 사람이 결정하는 것의 중요함을 알게 되었다.

 

 

공정 엔지니어로서 어떻게 데이터 분석을 하는지 관심이 많았던지라 제조업에서의 실무 사례가 가장 흥미로웠다.

강의에 나온 내용은 협력 업체에 데이터 분석을 맡겼을 때 기준이라, 만약 직접 기업에 입사하여 그 기업의 데이터를 분석했을 때는 어떻게 진행될지 예측해봤다.

  1. 데이터 수집: 공정 진행 시의 공정 조건 및 결과(수율, 불량율,,) 등의 데이터 수집 -- 이부분이 강의와 차이 O
  2. 데이터 전처리: 결측치/이상치 등 제외
  3. 데이터 분석: 양/불량 불균형 시 Over/Under Sampling 기법 도입
  4. 모델링: Test 수행 및 알고리즘 등을 통해 예측 모델 구축
  5. 결과 도출: ex/ 사전에 해당 조건에 따라 어느정도의 불량값이 예측된다

해당 논문에서 구체적으로 방법론 - 결과를 다루고 있으니 이후 공부하려고 한다

[2019, LG C&S, 제조 공정에서 센서와 머신러닝을 활용한 불량예측 방안에 대한 연구]

생산 설비의 센서로 데이터 추출

  1. 압력, 속도, 온도 등 품질에 영향을 미칠 수 있는 데이터 실시간 수집 (조건 데이터)
  2. 제품의 무게를 자동으로 계측하며 데이터 수집 (불량 여부 판별하는 결과 데이터)

-> 종속 변수: 무게의 변동 계수

-> 알고리즘: Linear Regression, Gradient Boosted Tree, Deep Learning

-> 결과적으로  Deep Learning이 제품 불량 예측에서 가장 탁월한 성과

 

https://www.kci.go.kr/kciportal/ci/sereArticleSearch/ciSereArtiView.kci?sereArticleSearchBean.artiId=ART002533880 

 

제조 공정에서 센서와 머신러닝을 활용한 불량예측 방안에 대한 연구

제조회사에서 생산되는 제품의 불량을 예측하는 것은 기업의 이익과 직접적으로 관련되기 때문에 매우 중요한 문제로 간주한다. 불량품을 판별하는 전통적인 방법은 사람이 직접 수작업으로

www.kci.go.kr

 


 

 친근한 엑셀로 실무 엑셀 데이터 분석 시작하기 (이동훈 강사님) 

본 강의에서는 데이터 분석의 정의를 배운 후, 엑셀로 데이터 분석을 하기 위해 사용할 수 있는 Tool에 대해 배웠다.

 

데이터 분석이란 현실과 이상 사이의 GAP을 발견했을 때 

  1. 과거 데이터를 분석하며 극복할 수 없는 문제를 해결하는 방법 모색
  2. 이후 과거와의 차이, 환경적 문제 등 현실 상황을 반영하여 수정

두 가지 행위를 하며 GAP을 메울 해결책을 찾아내는 것이다.

구체적으로 데이터를 통한 분석 결과를 근거로 GAP의 원인을 파악한 후, 해결 방안을 찾아내며, 이에 대한 Insight를 도출해야 한다.

 

강의를 들으며 Insight, 즉 long-term lesson이 와닿았다.

이전에는 문제 발견 후 문제의 원인, 문제의 해결법만 도출하면 완성인줄 알았다.

하지만 원인의 원인, 즉 문제의 원인이 왜 발생되었는지 그리고 문제가 다시 발생하지 않기 위한 해결법을 도출해야 한다는 강사님이 마인드셋을 시켜주셨다.

만약 당장의 원인과 해결법만 연구한다면 다시 되풀이되므로 이는 일차원적인 데이터 분석이겠구나 생각했다.

 

 

이후에는 단축키에 대해 배웠으며, 그 중 빠른 실행도구모음 단축키가,,제일 놀라웠다

함수식만 붙여넣기, 값만 붙여넣기의 단축키가 없어 인턴을 하며 생고생을 한 기억,,추억,,이 떠올랐다ㅠ

이러한 단축키는 여러 번 해보면서 꼭 외워서 빠르게 일처리를 해야겠다.

강사님께서도 회사 생활 중에서는 정확보다는 신속을 중요시하라고 말씀하셨다. 완전 반대로 생각했었는데 나의 정확성이 모두에게 통하는게 아니므로 빠르게 결과를 도출하고, 결과물을 선배님들, 상사분들께 검사를 받으며 정확한 자료로 만들어 가야 한다.

 

마지막으로는 피벗테이블에 대해 배웠다.

피벗은 만들기 전에 어떤 행/열/값으로 데이터를 시각화해야 할지 고찰하는 게 중요하다고 하셨다. 사실 만드는 것은 크게 어렵지 않지만 구상하는 데에 많은 생각이 필요하다.

 

또 피벗 테이블에서 몰랐던 기능인 슬라이서에 대해 알게 되었는데 슬라이서를 효과적으로 사용한다면 엑셀으로도 충분히 시각화자료를 만들 수 있겠구나 싶었다!

 


 친근한 엑셀로 실무 엑셀 데이터 분석 시작하기, 데이터 분석을 위한 기초 수학 / 통계 (온라인 강의) 

처음으로 패스트 캠프 온라인 강의장에서 수업을 들었다. 온라인 강의 학습 범위에 대해서는 엑셀 차트로 자세히 정리해주셔서 큰 어려움 없이 들을 수 있었다. 온라인 강의장도 깔끔하게 구성되어 있었다. 

 

첫 온라인 강의에서는 엑셀로 하는 데이터 분석을 배웠다. 엑셀로 데이터 전처리, 통계적 데이터 분석을 하는 방법을 알 수 있었다.

두 번째 온라인 강의에서는 전체적인 수학/통계 개념을 배웠다. 그 중 기술 통계, 즉 탐색적 데이터 분석을 하는 방법을 집중적으로 다루었다. 추가적으로 모집단, 표본 등 통계 단어들도 배웠다.


 

▶ 데이터 전처리 (엑셀 활용)

1. IF 함수

= IF(조건식, 조건을 만족할 경우 표시할 값, 조건을 만족하지 않을 경우 표시할 값)

 

ex)  IF(C5>=5000, “Platinum”, IF(C5>=2000, “Gold”, “Silver”))

IF 함수 중첩: 거짓일 때의 표시값에 또다른 함수식을 넣음으로써 변수를 늘려갈 수 있다. ∴ IF N번 중첩 → N+1가지 구분

 

2-1. COUNTIF 함수

= COUNTIF(특정 범위, 조건식)

 → 셀 범위 내에서 조건식에 부합하는 데이터의 개수 파악

* 조건식: "문자", "불완전한 조건식(>=5)" 등에는 쌍따옴표를 써줘야 함.

 

2-2. COUNTIFS 함수

= COUNTIFS(특정 범위 1, 조건 1, 특정 범위 2, 조건 2)

 → 셀 범위 내에서 (1개 이상) 여러 조건식에 모두 부합하는 데이터의 개수 파악

여성 중 나이가 40살 이상인 고객의 수

2-3. COUNTBLANK 함수

= COUNTBLANK( 특정 범위 )

  셀 범위 내에서 결측치의 개수 파악

 

3. SUMIFS 함수

=SUMIFS( 더할 값들의 범위, 더할 조건들의 범위 1, 조건 1, 더할 조건들의 범위 2, 조건 2)

 → 셀 범위 내에서 조건식에 부합하는 데이터의 값 더해줌

2030년 매출액들의 합

4. VLOOKUP 함수

= VLOOKUP( 기준 데이터값, 불러올 데이터의 범위, 불러올 데이터의 열번호, 0)

                     VLOOKUP($D5,    직원정보LIST!$D:$J,    3,    0)

VLOOKUP 함수는 공통 기준열[사번]을 1열로 가정하며 이를 기준으로 n번째 열의 데이터를 불러오는 함수식이다.

예를 들어 팀은 3열, 직급은 4열, 담당업무는 7열이므로, 상기 함수식의 굵은 글씨에 3,4,7을 입력하여 팀, 직급, 담당업무 데이터를 추출할 수 있다.

 

5. MATCH 함수

=MATCH( 찾으려는 행 값, 찾고 싶은 값이 포함된 행 범위)

VLOOKUP( 기준 데이터값, 불러올 데이터의 범위, MATCH 함수, 0) 를 써서 자동으로 열번호를 찾을 수도 있다.


기본적인 통계 용어

  • 변량: 데이터의 값
  • 계급: 변량을 일정 간격으로 나눈 구간
  • 도수: 계급에 속하는 변량의 수 (상대 도수: 변량의 비율)
  • 평균,  분산 (편차 제곱의 평균),  표준편차 (분산의 제곱근 ≒ 편차의 산술 평균)

 

  • 정규분포: 종모양 형태를 갖는 연속형 데이터의 분포
  • 표준 정규분포: 정규분포의 표준화 (균일한 기준으로 비교 가능)

 

  • 모집단 → 표본 (모집단을 대표하는 모집단의 일부)
  • 신뢰도: 값이 알맞은 모평균이라고 믿을 수 있는 정도
  • 신뢰구간: 모평균의 추정 구간

 


 

 피어세션 

내향성 인간이라 피어세션이 무서웠다,,,ㅎ 그런데 준비되어 있는 가이드라인에 맞춰 피어세션을 진행하면서 내 생각도 정리할 수 있고, 얼굴로만 뵙던 분들과 이야기 나눌 수 있어 좋았다.

 

첫 번째 피어세션에서는 

1. 자기소개

  • 이름 
  • MBTI 
  • 데이터 분석 부트캠프를 수강하는 이유
  • 취업 희망 분야 및 직종   
  • 가장 수강이 기대되는 과목(기초수학통계, Python, SQL, Tableau)과 이유
  • 부트캠프를 수강하며 걱정되는 부분
  • 과정 시작하기 전에 데이터 관련 공부를 한 적 있는지

2. 부트캠프 첫 인상과 강의 회고( 기억에 남는 내용과 이유, 새로 알게 된 내용, 더 알고 싶은 내용)

3. 어떻게 학습일지를 작성할지

를 주제로 진행되었으며,

 

두 번째 피어세션에서는

1. 자기소개

  • 이름
  • 데이터 분석 부트캠프를 수강하는 이유
  • 취업 희망 분야 및 직종
  • 가장 수강이 기대되는 과목(기초수학통계, Python, SQL, Tableau)과 이유
  • 나의 강점
  • 부트캠프를 수강하며 걱정되는 부분
  • 과정 시작하기 전에 데이터 관련 공부를 한적이 있나요?
  • 어제 처음으로 온라인 강의를 들었는데 어땠나요?

2. 학습 플래너 작성 및 내용 공유

  • 수강기간 최종 목표
  • 학습 규칙 3가지
  • 다음 주 목표 5가지
  • 위 세가지 사항을 연결지어 취업 계획

을 주제로 진행되었다.

 

조원분들께서 IT 전공도 많으시고 마케팅 분야 취업을 원하며 자연스레 데이터 분석에 접하신 것 같았다. 데이터 분석을 거의 모르는 나로서는 못 따라갈까 위기감도 느꼈지만 그만큼 열심히 예습 복습하면서 격차를 줄여가야겠다!

 

 

부트캠프 시작 첫 주인데 생각보다도 짜임새가 더 좋은 듯 하다앞으로도 초심을 잃지 않고 성실하게 임해보쟝><