본문 바로가기
Life/review

[Start with Udemy Challengers] 4일차 학습 후기-자문자답

by Finn# 2022. 5. 16.
728x90

 

오늘 4일째 공부하는데 어때?

 아 오늘 날씨 진짜 좋다. 딱 놀러 가기 좋은 날씨인데 ㅠㅠ 모처럼 주말이니까 오늘 공부 후딱 끝내고 나가서 산책이라도 다녀올까 생각 중 ~ ㅋㅋ 이제 Challenge를 시작한 지 4일째인데 강의를 벌써.. 50% 정도는 들은 것 같네?  이 속도 맞는 거지? ㅋㅋ 오늘 공부할 섹션 4가 수업내용을 간략하게 살펴보니 지금까지 공부한 것들을 토대로 이제 진짜 데이터를 끌어와서 저장하는 작업을 할 것 같아. 수업시간을 살펴보니 대략 2시간 정도 되는데 2시간 동안 열심히 집중해서 내 지식으로 다 담아갈 거야! 기술적으로나 이론적으로나 뭐든 배우면 직접 해봐야 한다고 오늘 진행할 프로젝트 열심히 마무리해서 꼭 크롤링 기본은 하지~라고 당당하게 말할 수 있는 사람이 되야겠다 ㅎㅎ 오늘도 여느 때와 같이 기분 좋게 하루를 출발하겠습니다. 공부하러 Let's go!


오늘 공부한 내용은 뭐니?

 오늘 공부한 파트는 섹션 4의 Netflix 크롤링 파트였어.

 지금까지 배웠던 개념들을 총망라했다고 느낄 정도로 아찔했던 수업이었다고 느낀다 ㅎㅎㅎ 공부하면서 너무 재미있더라고 현재 빅데이터 분석기사 필기 합격하고 나서 실기 공부하면서 Python - Pandas에 대해서 공부하고 있었는데 관련 개념이 나오니까 너무 반갑기도 하고 공부가 연결되니까 더 기분이 좋았던 것 같아. 배운 것을 써먹을 수 있다는 점에서 행복함이 느껴지더라고 ㅎㅎ 각설하고 오늘 공부한 내용 정리해볼게!

 

  오늘 공부도 지난 3일 차 수강후기와 동일하게 강의 별로 나눠서 내용에 대해 이야기하기보다 전체적으로 어떤 흐름에서 수업이 진행되었는지 적어보려고 해. 먼저 이번 섹션 4에서 진행한 프로젝트는 Netflix  웹사이트에 상에서 볼 수 있는 정보들을 모아서 Excel 파일로 저장하는 것인데, 여기서 사용하는 라이브러리는 selenium, BeautifulSoup, Pandas 총 세가 지야. 각각에 대한 설명은 이전 섹션 1 수업을 참고하면 될 것 같아. 라이브러리가 준비되었다면 selenium 내에 있는 webdriver를 사용해서 브라우저에 접속해줘, 이때 url을 바로 알면 바로 browser에 get(url)해주면 될 것 같아!  그다음으로는 페이지 정보를 html에 받아주고, BeautifulSoup를 사용해서 html 구조로 가져와줘 (soup). 그럼 일단 1차적인 단계는 끝이 난 것이지! 

위에서 설명한 1단계!

 다음 단계는 Netflix에서 진행할 크롤링에 대한 계획을 세우고 그 계획에 맞게 코딩하면 되는데, 이때 구조를 세울 때는 해당 웹사이트에 접속해서 F12(개발자 모드)를 활성화한 상태에서 구조를 분석해보면서 계획을 짜는 게 좋을 것 같아. 이건 TMI인데 내가 듣는 이 강의가 찍힌 지 1년 정도 지난 것 같더라고, 그래서 강의 내용이랑  실제 웹사이트에서 사용하는 태그명이  조금 달라진 경우가 있는데, 나는 오히려 이게 더 좋았던 게 앞서 배웠던 개념을 충분히 숙지한다면 바뀐 태그명 정도를 찾아서 적용하는 것쯤은 정말 아무것도 아니었기에 내가 개념에 대해서 충분히 이해가 되었는지 판단해볼 수 있는 시간이 되었다고 생각해! ㅎㅎ

 마지막으로 Netflix에서 섹션 별로 또는 프로그램 별로 뽑아낼 요소들을 실제 웹사이트에 HTML에서 필요한 값들을 추출해서 코드를 작성하면 최종적으로 selenium과 BeautifulSoup를 이용해서 할 수 있는 작업들은 마무리가 돼. 이제 남은 것은 Pandas를 이용해서 Excel 파일로 보내면 되는 거지. 그 중간 과정으로 반복문을 사용하면서 바뀌는 변수들의 값을 저장해 줄 DB를 만드는 방법이나 Searching 한 프로그램의 개수를 세는 노하우에 대해서 알려주는데 그건 강의를 통해서 확인하면 좋을 것 같아!

전체 학습 커리큘럼

오늘 공부했던 내용은 굵은 글씨로 표기해둘게!

1주차(20강) 준비하기 강의 및 강사 소개
파이썬 설치하기
크롤링 방법 장단점 비교 설명
크롤링은 합법?불법?판례로 살펴본 크롤링
쥬피터 노트북 살펴보기
파이썬 익히기
컴퓨터와 소통하기
숫자 데이터 다루기
문자 데이터 다루기
여러 개의 데이터 다루기(리스트)
데이터 병합하기(리스트 합치기)
반복 작업하기(for 반복문)
조건에 따라 작업 진행하기(if 조건문)
문자 데이터 자유자재로 사용하기(f-string, 문자열 포매팅)
문자 데이터 내 맘대로 정리하기
크롤링 기초
Selenium & chromedriver 설치하기
브라우저 열기
웹 페이지 접속하기 &URL 살펴보기
얼렁뚱땅 HTML 살펴보기
HTML 에서 원하는 정보 가져오기( BeautifulSoup.select() )
태그에서 필요한 값 추출하기
2주차(27강) Netflix 크롤링
넷플릭스 오리지널 페이지 살펴보기
크롤링 계획 설계하기
섹션 파트 나누기
프로그램 파트 찾기1_섹션 제목 찾기
프로그램 파트 찾기2_프로그램
프로그램 정보 수집하기
모든 프로그램 정보 수집하기(with 반복문)
엑셀 파일에 저장하기
Instagram 크롤링
인스타그램 페이지 살펴보기
인스타그램 크롤링 계획 설계하기
로그인 하기
태그 검색하기
게시글 클릭하기
다음 게시글 클릭하기
[게시글 정보 수집] - 본문내용
[게시글 정보 수집] - 좋아요 수
[게시글 정보 수집] - 작성 일시
여러 게시글 반복 수집하기 feat.오류점검하기
수집 데이터 엑셀 파일에 저장하기
Youtube 크롤링
유튜브 크롤링 소개
인기영상 리스트 수집하기1
인기영상 리스트 수집하기2
영상정보 수집하기1(제목, 조회수, 업로드 일자)
영상정보 수집하기2(좋아요, 싫어요, 채널명)
댓글수집하기1-총댓글수확인하기
댓글수집하기2-댓글가져오기
(코드정리)원하는 만큼 댓글 가져오기
 

이번에 공부하면서 알게 된 점은?

 오늘 공부한 내용은 Netflix 크롤링하는 방법에 대한 내용이지만, 위에서 이미 다 정리해놨기 때문에 그 외 추가적으로 알아서 도움이 되었다고 느끼는 것들에 대해 이야기해보려고 해!

 

1. 크롤링 계획 세우기

 크롤링을 하기로 마음을 먹었다면 내가 크롤링할 사이트에 접속해서 어떤 정보를 어떻게 추출할지 계획을 세우는 것 자체가 굉장히 중요해 보였어. 내 생각에 코딩은 단순히 기술의 영역이라고 생각해. 물론 개발에 따른 Engineering Process를 어떤 방식으로 진행하냐에 따라 다르겠지만 기본적으로 어떤 결과를 내야 할지 목표가 정해져 있는 생애주기 내에서의 코딩이라면 더욱 효율적으로 코드를 작성하는 문제가 가장 관건이라고 생각하거든. 그래서 사실 이 계획을 어떻게 세우는지가 업무 수행 시 첫 번째 해야 할 일이자 가장 중요한 업무라고 생각해. 그리고 이번 수업에서 사용한 방식인 Sections - Programs - Program Elements을 통해 정리한 자료를 살펴보니 깔끔하게 정리돼서 좋더라고!

엑셀로 정리한 자료

2. Data를 정리하는 방법

 오늘 수업으로 데이터를 정리하는 방법으로 세 가지를 배웠는데, 이 중 SQL를 통해서 데이터를 정리하는 것도 꼭 배워보고 싶었어. 그래서 만약에 이번 Challenge가 끝나고 구매해두었던 Python bootcamp 강의를 다 듣고 나면 SQL에 대한 공부도 시작해보려고 해!


오늘 하루 했던 공부를 평가해보자면?

 오늘 섹션 4 수업을 들으면서 지금까지 배웠던 개념들을 모두 복습한 느낌이 들었어. 강의 하나하나에 너무 꿀팁들이 많이 담겨있었고 Start with Udemy Challengers에 선발되어 이런 공부를 할 수 있었다는 게 너무 축복받은 일이라고 생각해. 이전까지는 공부를 하더라도 너무 동떨어진 공부를 하고 있었다고 생각했는데 웹 크롤링과 관련된 수업을 들으면서 이전에 DB Analysis 공부할 때 알게 된 Pandas가 사용되는 걸 보고 진짜 데이터를 수집하고 데이터베이스를 구축하는 한 예시를 같이 수행해본 느낌이 들어서 너무 뿌듯하다는 생각이 들었어. 시작은 Netflix라는 비교적 단순한 웹사이트로 했지만 앞으로 다양한 사이트나 센서 데이터에서 내가 원하는 정보를 가공하고 DB를 만들어서 분석하는 업무를 해보고 싶어! 오늘 공부를 한마디로 표현해보자면 하고 싶은 일에 한 발자국 다가간 기분!??

 

 

섹션 4까지 진행한 내용 !


Outro

좋은 기회를 제공해주셔서 감사합니다.
본 게시글은 UdemyKorea에서 제공한 프로모션에 참여하기 위해 작성한 게시글입니다.


인스타 주소 ⭐

https://www.instagram.com/f.inn_sharp/

 

#유데미#유데미코리아#스타트위드유데미#스터디윗미

반응형