본문 바로가기
Life/review

[Start with Udemy Challengers] 3일차 학습 후기-자문자답

by Finn# 2022. 5. 14.
728x90

 

오늘 3일째 공부하는데 어때?

  오늘은 Udemy 강의 들으려고 아침에 일찍 일어났어! 사실 다음 주에 ADsP랑 어학 시험이 예정되어 있거든...(ㅠㅠ)
시험 관련해서 공부하다 보면 하루가 다 갈 것 같아서 미리 아침에 일어나서 Udemy 강의 듣고 공부해보려고 ~ 생각보다 오늘은 잠을 좀 개운하게 자서 그런가 기분이 매우 상쾌하다!  어제 새벽까지 인강 듣느라고 약간 피곤할 법도 한데 왜 개운하지??? ㅋㅋㅋ 

  이제 섹션 3 공부할 차례인데 섹션 이름부터 크롤링 기초라고 적혀있어. 드디어 크롤링 입문하는 건가? 아마도 이번 섹션에서는 저번 섹션 1에서 소개했던 크롤링 프로세스랑 라이브러리를 직접 사용해보는 시간이 될 것 같아.. 사실 크롤링 배우게 되면 꼭 만들어보고 싶은 프로그램이 하나 있다?  뭐냐면 내가 학원에서 보조 강사로 일하고 있는데 보조 강사가 하는 업무 중 하나가 매일 웹사이트 내에서 출결 정보를 확인하고 수기로 작성하는 일이 있단 말이지. 그 일을 할 때 크롤링을 사용해서 자료를 한 번에 잘 수집할 수 있게 된다면 여러 번 사이트를 들어갔다 나갔다 할 필요가 없을 것 같아서 엄청 편할 것 같아!! 그래서 이번 강의 열심히 들어서 빨리 내가 구상한 것을 실현해보고 싶어!


오늘 공부한 내용은 뭐니?

오늘 공부한 파트는 섹션 3의 크롤링 기초에 대해서 공부했어.

 섹션 3에서 공부한 것은 딱히 강의 별로 구분할 것도 없이 그냥 Selenium에 있는 Webdriver랑 bs4에서 BeautifulSoup 가지고 웹 사이트에서 내가 원하는 정보를 가져오는 것에 대해서 공부했어.. 거의 한 3 - 4시간 공부한 것 같은데..  예전에도 분명 selenium 가지고 스크래핑해봤는데 지금 다시 하려니까 왜 이렇게 새롭고 어렵게 느껴지는지 모르겠다.. 그래도 강사님이 정말 친절하게 잘 알려주셔서 여러 번 돌려보느라고 시간이 오래 걸렸던 것 같아.  그래도 뭔가 이대로 끝내기 아쉬우니까 배운 내용을 간단하게 정리해볼게, 

 가장 먼저 필요한 라이브러리를 불러온 다음 브라우저를 통해 수집할 사이트에 접속하면 돼, 이때 url 주소를 전부 알고 있으면 좋지만 그렇지 않을 때가 더 많을 테니 적당하게 url 주소 입력한 다음 웹 드라이버로 실행된 창이 뜨거든  거기서 원하는 정보가 담겨있는 사이트로 고고

 

  다음으로 할 것은 네가 작업하고 있는 IDE 창으로 페이지 정보를 불러올 수도 있거든? 근데 그냥 불러오면 string 타입으로 불러와지니까 마크업 언어로 작성된 구조가 하나도 안보인단말이야, 그래서 beautifulsoup에서 지원하는 html.parser를 활용해서 정보를 담아오면 어느정도 구조가 보여! (..ㅋㅋ 근데 사실 웹사이트에서 F12 키 누르고 직접 네가 원하는 요소에 대한 태그를 찾는게 더 빨라 ㅎㅎ) 

 

 자 이제 여기까지 했으면 너가 뽑을 정보가 담긴 태그를 추출해야 하는데 그때 필요한 게 select 메서드야. 자세한 문법은 강의에서 다루니 참고하길 바라고! 나는 강의에서 알려준 내용을 토대로 태그를 넣어서 원하는 정보를 추출할 수 있었어 아래 첨부한 그림을  보면 어느 정도 이해할 수 있을 거야.  

 

강의보고나서 안보고 제가 한번 만들어봤습니다 헤헤


전체 학습 커리큘럼

오늘 공부했던 내용은 굵은 파란 글씨로 표기해둘게!

1주차(20강) 준비하기 강의 및 강사 소개
파이썬 설치하기
크롤링 방법 장단점 비교 설명
크롤링은 합법?불법?판례로 살펴본 크롤링
쥬피터 노트북 살펴보기
파이썬 익히기
컴퓨터와 소통하기
숫자 데이터 다루기
문자 데이터 다루기
여러 개의 데이터 다루기(리스트)
데이터 병합하기(리스트 합치기)
반복 작업하기(for 반복문)
조건에 따라 작업 진행하기(if 조건문)
문자 데이터 자유자재로 사용하기(f-string, 문자열 포매팅)
문자 데이터 내 맘대로 정리하기
크롤링 기초
Selenium & chromedriver 설치하기
브라우저 열기
웹 페이지 접속하기 &URL 살펴보기
얼렁뚱땅 HTML 살펴보기
HTML 에서 원하는 정보 가져오기( BeautifulSoup.select() )
태그에서 필요한 값 추출하기
2주차(27강) Netflix 크롤링
넷플릭스 오리지널 페이지 살펴보기
크롤링 계획 설계하기
섹션 파트 나누기
프로그램 파트 찾기1_섹션 제목 찾기
프로그램 파트 찾기2_프로그램
프로그램 정보 수집하기
모든 프로그램 정보 수집하기(with 반복문)
엑셀 파일에 저장하기
Instagram 크롤링
인스타그램 페이지 살펴보기
인스타그램 크롤링 계획 설계하기
로그인 하기
태그 검색하기
게시글 클릭하기
다음 게시글 클릭하기
[게시글 정보 수집] - 본문내용
[게시글 정보 수집] - 좋아요 수
[게시글 정보 수집] - 작성 일시
여러 게시글 반복 수집하기 feat.오류점검하기
수집 데이터 엑셀 파일에 저장하기
Youtube 크롤링
유튜브 크롤링 소개
인기영상 리스트 수집하기1
인기영상 리스트 수집하기2
영상정보 수집하기1(제목, 조회수, 업로드 일자)
영상정보 수집하기2(좋아요, 싫어요, 채널명)
댓글수집하기1-총댓글수확인하기
댓글수집하기2-댓글가져오기
(코드정리)원하는 만큼 댓글 가져오기
 

이번에 공부하면서 알게 된 점은?

오늘 공부하면서 크롤링할 때 주의해야 할 것들이 몇 가지 있었는데 그것에 대해서 이야기해보려고! 

 먼저, 강사님이랑 마찬가지로 나도 메인 브라우저로 크롬을 사용하고 있어서 크롬으로 진행했어. 근데 이 브라우저랑 웹 드라이버에는 버전이라는 게 있더라고 그래서 크롤링 작업을 위해서라면 일단 현재 사용 중인 브라우저와 웹 드라이버의 버전을 같은 것을 해줘야 하더라고! 첨에 그렇게 하지 않으니까 오류가 떠버렸다 ㅠㅠ 그래서 오늘 공부하면서 버전을 같게 해주는 게 중요하다고 느꼈어.

 두 번째는 위에도 적어놓은 내용이지만 기본적으로 내가 웹사이트에서 특정 정보를 수집하고자 할 때 어떻게 하면 얻을 수 있는지 일련의 과정에 대해 공부하였고, 위 과정을 수행하면서 selenium과 beautifulsoup를 사용하는 방법에 대해서 알 수 있었어. 공부하면서 느껴진 건데 이게 그냥 한두 번 해선 될게 아니구나 싶더라고 그래서 2주 차에 들어가기 전에 1 회독을 해놓고 2회 차에 더 숙달시킬 계획이야! 


오늘 하루 했던 공부를 평가해보자면?

 오늘은 오전에 공부 시작해서 오전에 끝내려고 했거든? ㅋㅋㅋ 근데 어느덧 해가 지고 있더라.. 생각보다 할 게 많았고 중요한 부분들이 많이 있어서 여러 번 반복해보고 기억해보고 실습해보느라 시간이 많이 가드라고.. 실제 강의 시간은 2시간 정도였는데 몇 배를 한 건지.. 그래도 시간을 투자할 만큼 가치가 있었고. 앞으로 섹션 4,5,6 총 세 가지 섹션이 남아있는데 이 섹션들은 실제 특정 웹사이트에 접속해서 자료를 얻는 과정에 대한 강의인 것 같아. 그래서 이번 섹션 3을 더 꼼꼼히 들었어. 나중에 오늘 이후의 강의를 듣다가 모르는 거 생긴다고 섹션 3 또 들으러 가면 곤란하니까 아주 꼼꼼히 공부했어 ㅎㅎ! 그래서 오늘 하루는 힘들었지만 보람찬 하루였다고 평가할래! 

 

오늘 공부한 내용 !

 


Outro

좋은 기회를 제공해주셔서 감사합니다.
본 게시글은 UdemyKorea에서 제공한 프로모션에 참여하기 위해 작성한 게시글입니다.


인스타 주소 ⭐

https://www.instagram.com/f.inn_sharp/

 

#유데미#유데미코리아#스타트위드유데미#스터디윗미

반응형