본문 바로가기
Life/review

[Start with Udemy Challengers] 5일차 학습 후기-자문자답

by Finn# 2022. 5. 17.
728x90

 

오늘 5일째 공부하는데 어때?

  공부하기 전에 갑자기 문득 든 생각이 있는데 너무 진도를 빨리 뺀 건가 싶기도 하다... 이제 오늘 공부하고 나면 남은 섹션은 하나뿐인데.. 챌린지는 9일이 남았고! ㅎㅎㅎㅎ 그래서 오늘은 공부에 대한 기대를 표현하기보단 앞으로의 일정에 대해 좀 더 생각해보는 시간을 가져보자. ㅎㅎ   우선 지금 계획대로 진행해도  1 회독 강의를 완강하고 나면 8일이라는 시간이 남고 ! 남은 시간동안  2회독을 한다고 하더라도 이틀이 더 남은 상황이야. 강의를 듣지 않는 시간이 이틀이 남게 되는데 이 시간을 현명하게 사용하는게 좋겠지 아무래도? 그래서 내 생각에는  먼저 이틀 중 하루는 1회독을 마친 후 1회독 후기와 강의 수료증 자랑하는 시간으로 챌린지 후기를 작성해보려고 해. 그리고 나머지 하루는 2022년 5월 기준으로 강의 내용과 바뀐 태그들 정리해서 강의 리뷰로 올려보는 시간을 가지는 건 어떨까 싶네. 그래서 최종적으로 정리를 해보자면!

6일(1 회독) + 1일(수료증 자랑 + 1 회독 후기) + 6일(2 회독) + 1일(강의 리뷰 + 태그 정리)

 


오늘 공부한 내용은 뭐니?

오늘 공부한 파트는 섹션 5의 Instagram 크롤링 파트였어. 

 저번 4강 후기와 마찬가지로 섹션 5도 강의 구분 없이 전체 섹션의 공부 내용에 대해서 이야기해볼게.
이번 섹션이랑 저번에 공부했던 섹션과의 가장 큰 차이점은 browser에 대해서 제어하는 부분이 추가되었다는 점이야. 
섹션 4에서의 공부했던 넷플릭스 사이트의 특징은 모든 정보가 한 페이지 내에 있어서 다른 팝업 창에 대한 신경을 써줄 필요 없이 바로 정보를 긁어와서 추출하는 작업을 진행하면 되는데 이번에 공부한 인스타그램 같은 경우에는 검색창에서 자료를 검색하면 관련 게시글을 클릭해서 접속한 뒤에 정보를 추출해야 하더라고 그래서 정보를 추출하기 위해서는 필히 웹사이트를 제어하는 코드들이 필요한데 우리가 사용하는 selenium 라이브러리에 해당 기능들이 있어. 그래서 이번에 공부한 코드에도 그런 코드들이 있더라고.

 이번 강의에서는 구조를 Tag name -> article -> article elements 이런 식으로 잡았어. 해석해보자면 가장 상위 분류는 우리가 지정한 tag의 이름으로 분류하고 그 tag 속에서 각각의 게시물에 어떤 요소들이 있는지 추출하는 방식인 거지. 이번 강의를 통해서 느끼는 거지만 현재 웹사이트에서 사용하고 있는 tag 명들이  강의 내용에서 사용된 tag 명과 비교해봤을 때 많이 달라졌더라고 이 사실은 다시 생각해보면 그만큼 인스타그램이 크롤링에 대해서 신경 쓰거나 구조적으로 변화를 많이 주고 있다는 것을 의미하는 것 같아. 그래서 여담이지만 위에서 이야기했듯이 강의를 듣는 수강자들이 좀 더 편리하게 태그명을 찾아가라고 2022년 5월 기준으로 바뀐 태그명들을 싹 다 정리해서 강의 리뷰에 올려볼 계획이야. 나중에 도움이 될 수 있길 바랄게! 음.. 그리고 인스타그램을 크롤링하는 코드에 대해서는 강의 내용과 직결된 부분이라 따로 첨부하진 못할 것 같고 강의를 통해서 배울 수 있길 바라. 

 

전체 학습 커리큘럼

오늘 공부했던 내용은 굵은 글씨로 표기해둘게!

1주차(20강) 준비하기 강의 및 강사 소개
파이썬 설치하기
크롤링 방법 장단점 비교 설명
크롤링은 합법?불법?판례로 살펴본 크롤링
쥬피터 노트북 살펴보기
파이썬 익히기
컴퓨터와 소통하기
숫자 데이터 다루기
문자 데이터 다루기
여러 개의 데이터 다루기(리스트)
데이터 병합하기(리스트 합치기)
반복 작업하기(for 반복문)
조건에 따라 작업 진행하기(if 조건문)
문자 데이터 자유자재로 사용하기(f-string, 문자열 포매팅)
문자 데이터 내 맘대로 정리하기
크롤링 기초
Selenium & chromedriver 설치하기
브라우저 열기
웹 페이지 접속하기 &URL 살펴보기
얼렁뚱땅 HTML 살펴보기
HTML 에서 원하는 정보 가져오기( BeautifulSoup.select() )
태그에서 필요한 값 추출하기
2주차(27강) Netflix 크롤링
넷플릭스 오리지널 페이지 살펴보기
크롤링 계획 설계하기
섹션 파트 나누기
프로그램 파트 찾기1_섹션 제목 찾기
프로그램 파트 찾기2_프로그램
프로그램 정보 수집하기
모든 프로그램 정보 수집하기(with 반복문)
엑셀 파일에 저장하기
Instagram 크롤링
인스타그램 페이지 살펴보기
인스타그램 크롤링 계획 설계하기
로그인 하기
태그 검색하기
게시글 클릭하기
다음 게시글 클릭하기
[게시글 정보 수집] - 본문내용
[게시글 정보 수집] - 좋아요 수
[게시글 정보 수집] - 작성 일시
여러 게시글 반복 수집하기 feat.오류점검하기
수집 데이터 엑셀 파일에 저장하기
Youtube 크롤링
유튜브 크롤링 소개
인기영상 리스트 수집하기1
인기영상 리스트 수집하기2
영상정보 수집하기1(제목, 조회수, 업로드 일자)
영상정보 수집하기2(좋아요, 싫어요, 채널명)
댓글수집하기1-총댓글수확인하기
댓글수집하기2-댓글가져오기
(코드정리)원하는 만큼 댓글 가져오기
 

이번에 공부하면서 알게 된 점은?

오늘 공부한 내용은 앞서  이야기했기에 이번 파트에서는 수업에서 이야기한 코딩 팁들에 대해서 좀 적어보려고 해.
대부분 코딩을 작성할 때  참고하면 좋을 법한 내용들이고 요새 컴퓨터 활용능력 실기 공부를 하고 있는데 여기서 사용되는 함수들이랑 비슷한 역할을 하는 코드도 있는 것 같아서 조금 신기하기도 하고 꼭 알아둬야겠다는 생각이 들어서 따로 정리하려고.

1. 태그명 뒤에 class나 각종 속성 값에 띄어쓰기로 구분된 부분은 selenium으로 사용하기 위해서는 '. '으로 대체해줘야 한다.

2. Delay 시간을 맞춰주기 위해서 time  라이브러리 이용하자. (import time/ time.sleep(시간))

3. 에러가 발생했을 때 수행할 코드 작성은  try: ~ except: 문을 활용하자. 이때 한 변수당 하나씩 설정해두면 수정에 용이하다.

4. 시간 조절에 관련돼서 설명해보자면 기본적으로 selenium도 1~3초 정도 delay가 발생한다. 그래서 그 시간까지 고려해서 충분히 데이터를 받을 수 있게 time.sleep(시간)으로 조절해주면 좋다.


오늘 하루 했던 공부를 평가해보자면?

 어제 공부했던 넷플릭스와는 다른 형태의 구조를 가지고 있는 웹사이트를 분석하고 자료를 추출하는 과정을 해봤는데, 확실히 세상에는 다양한 종류의 사이트들이 있고 각 사이트마다 어떤 식으로 구성이 되어있는지 파악하는 게 좋을 것 같아. 그런 의미에서 html, css, javascript에 대한 공부도 조금 해두면 아무래도 해당 태그가 가진 정보들을 해석하고 이해하는데 도움이 될 것 같아. 평일이라 굉장히 바쁘게 하루를 보냈고.. 이번 주 주말에 또 시험을 봐야 해서 새벽에 시험공부를 해야 할 것 같은데.. ㅠㅠ 그래도 이렇게라도 열심히 해야 빨리 성공하고 자리 잡지 않겠니..!  오늘 하루는 내일을 위한 땀이라고 평가할게 ㅎㅎ... (내일까지 하면 벌써 완강 ㅋㅋ)


Outro

좋은 기회를 제공해주셔서 감사합니다.
본 게시글은 UdemyKorea에서 제공한 프로모션에 참여하기 위해 작성한 게시글입니다.


인스타 주소 ⭐

https://www.instagram.com/f.inn_sharp/

#유데미#유데미코리아#스타트위드유데미#스터디윗미

 

반응형