오늘 6일째 공부하는데 어때?
어제저녁 내내 잠을 좀 설쳐서 그런지 너무 오늘 낮 12시쯤에 일어났지 뭐야.. 너무너무 피곤하다 이따 오후에 알바도 가야 하는데 이 컨디션으로 괜찮을지 모르겠다.. 아마 이번 주 주말에 시험 보는 거나 금요일에 해야 할 일들이 너무 많아서 신경 쓰다 보니 잠에 못 든 것 같은데 얼른 끝내버려야지.. ㅠㅠ 오늘 공부는 드디어 1 회독 마지막 시간이야! 전체 강의를 전부 한 번씩 듣는 거라고 ~ 나름 바쁜 상황에서도 시간을 짬짬이 내서 공부하니까 결국 끝까지 오긴 오네 ㅎㅎ 짧은 강의였지만 임팩트 있게 쭉 공부한 것 같아서 뿌듯하구먼.. (누가 보면 벌써 다 들은 것 같겠누 ㅋㅋㅋㅋㅋㅋㅋㅋㅋ) 각설하고 ㅎㅎ 오늘 공부할 파트는 섹션 6인데 Netflix와 Instagram에 이어서 이제 Youtube야! Youtube에서 여러 가지 정보를 수집할 것 같은데 기대가 되는구먼~ 지금까지 공부했던 사이트들 중에 제일 복잡한 것 같은데 어떨지 궁금하다! 자 오늘의 목표는 '완강을 위해 묵묵히 정진하자 '
오늘 공부한 내용은 뭐니?
오늘 공부한 파트는 마지막 섹션 6 youtube 크롤링 파트였어.
섹션 6에서 공부한 Youtube 크롤링 파트는 지난 섹션 4에서 공부한 기본적으로 크롤링하는 방법과 섹션 5에서 추가적으로 배웠던 selenium을 이용한 Website 제어하는 방법(클릭)을 사용했어. 계속 진도를 나아가더라도 지난 시간에 배웠던 개념을 곧바로 활용하니까 기억하는데 많은 도움이 되더라고 이번 섹션에는 저번 섹션과 달리 새로운 개념을 하나 더 배웠는데 그건 자동으로 스크롤을 내려서 스크롤을 내렸을 때 정보를 새로이 받는 방법에 대해서 공부했어. 구현 방법은 우리 키보드에 Page Down이라는 키가 있는데 그 키의 매핑된 값을 웹사이트를 구성하는 html 요소에 넣어줌으로써 page down키를 통해 Website의 스크롤을 내리는 효과를 내주는 거야. 이것을 for 반복문을 통해 새로운 내용이 업로드될 정도까지 적절하게 맞춰주면 자동으로 데이터를 받을 수 있게 돼. 그리고 여느 때와 같이 Pandas를 활용하여 Excel로 보내는 과정까지 해서 총 6개의 섹션으로 구성된 강의를 마무리했어.
강의는 끝났지만 만약 섹션 6 이후에 섹션 7 강좌가 있다고 한다면 이번 섹션 6에서 정보를 받아올 때, 메인 페이지에서 정보를 수집하고 별개로 메인 페이지에서 접속가능한 상세 페이지에서 정보를 따로 수집하는 방식으로 크롤링을 진행했는데, browser.get(url)과 < a href='링크' > 태그를 활용해서 메인페이지에서 가져온 정보를 바로 활용하여 세부 페이지에서 정보를 받아오는 과정까지 한 번에 자동으로 진행하는 과정을 배웠을 것 같아. 1 회독을 마치고 생각해본 입장에서 접속하고 수집하는 시간만 잘 맞춘다면 충분히 가능하다고 생각해.
전체 학습 커리큘럼
오늘 공부했던 내용은 굵은 글씨로 표기해둘게!
1주차(20강) | 준비하기 | 강의 및 강사 소개 파이썬 설치하기 크롤링 방법 장단점 비교 설명 크롤링은 합법?불법?판례로 살펴본 크롤링 쥬피터 노트북 살펴보기 |
|
파이썬 익히기 |
컴퓨터와 소통하기
숫자 데이터 다루기
문자 데이터 다루기 여러 개의 데이터 다루기(리스트)
데이터 병합하기(리스트 합치기)
반복 작업하기(for 반복문)
조건에 따라 작업 진행하기(if 조건문)
문자 데이터 자유자재로 사용하기(f-string, 문자열 포매팅)
문자 데이터 내 맘대로 정리하기
|
||
크롤링 기초 |
Selenium & chromedriver 설치하기
브라우저 열기
웹 페이지 접속하기 &URL 살펴보기
얼렁뚱땅 HTML 살펴보기
HTML 에서 원하는 정보 가져오기( BeautifulSoup.select() )
|
||
2주차(27강) | Netflix 크롤링 |
넷플릭스 오리지널 페이지 살펴보기
섹션 파트 나누기
프로그램 파트 찾기1_섹션 제목 찾기
프로그램 파트 찾기2_프로그램
프로그램 정보 수집하기
모든 프로그램 정보 수집하기(with 반복문)
엑셀 파일에 저장하기
|
|
Instagram 크롤링 |
인스타그램 페이지 살펴보기
인스타그램 크롤링 계획 설계하기
로그인 하기
태그 검색하기
게시글 클릭하기
다음 게시글 클릭하기
[게시글 정보 수집] - 본문내용
[게시글 정보 수집] - 좋아요 수
[게시글 정보 수집] - 작성 일시
수집 데이터 엑셀 파일에 저장하기
|
||
Youtube 크롤링 |
유튜브 크롤링 소개
인기영상 리스트 수집하기1
인기영상 리스트 수집하기2
영상정보 수집하기1(제목, 조회수, 업로드 일자)
영상정보 수집하기2(좋아요, 싫어요, 채널명)
댓글수집하기1-총댓글수확인하기
댓글수집하기2-댓글가져오기
(코드정리)원하는 만큼 댓글 가져오기
|
이번에 공부하면서 알게 된 점은?
오늘 공부로 알게 된 점은 전에도 배웠던 내용인데 강의에서 계속 사용하길래 중요하다고 생각하는 부분을 적어보려고 크롤링을 하다 보면 수집한 자료의 끝이 어딘지 모를 때가 있는데 끝을 모르니까 이게 맞는지 어떤 지 웹사이트 내에서 확인할 수 없는 경우가 있을 수 있어 이때 해결책은 인덱싱을 활용해서 제대로 정보를 수집했는지 확인해볼 수 있어. 전에 요소 값을 확인할 때, 리스트[ len(리스트) - 숫자 ] 꼴에서 len(리스트)를 생략하고 리스트[ -숫자 ] 꼴로 쓸 수 있다고 이야기했던 거 기억나지? 바로 이 개념을 활용해서 리스트의 마지막 요소 값을 알 수 있어. 생각보다 유용하니까 꼭 기억하자.
오늘 하루 했던 공부를 평가해보자면?
youtube는 지금까지 연습해본 웹사이트들 중에 규모가 가장 커서 그런지 크롤링할 양도 방대했고 태그 보는 게 너무 힘들더라고 ㅠㅠ순수 강의시간은 2시간 정도밖에 안되는데 한 4 -5시간은 족히 공부한 것 같네.... 조금 복잡했지만 강의에서 알려준 대로 잘 따라 하다 보니, 오늘 공부를 끝으로 크롤링 강의를 1차적으로 완강할 수 있었다. 6일간 달려온 스스로에게 축하를 ㅎㅎㅎ 생각만 하던 크롤링 강의를 Start with Udemy Challengers에 선정되면서 관심을 가지게 되고 이렇게 완강까지 하게 되어서 너무 유익한 시간이었던 것 같아. 이런 기회를 주어서 너무 감사할 따름이야. 앞으로 남은 Challenge 기간 동안 2 회독을 성실히 해서 한번 머릿속에 스쳐 지나간 크롤링 개념들을 다시 상기시키고 기술을 한층 더 발전시키기 위해 노력해야겠어. 반복학습은 공부의 왕도이자 절대 진리지 ㅎㅎ
인스타 주소 ⭐
https://www.instagram.com/f.inn_sharp/
#유데미#유데미코리아#스타트위드유데미#스터디윗미
'Life > review' 카테고리의 다른 글
[Start with Udemy Challengers] 8일차 학습 후기-자문자답 (0) | 2022.05.20 |
---|---|
[Start with Udemy Challengers] 7일차 후기-1회독 완료 ! (0) | 2022.05.20 |
[Start with Udemy Challengers] 5일차 학습 후기-자문자답 (0) | 2022.05.17 |
[Start with Udemy Challengers] 4일차 학습 후기-자문자답 (0) | 2022.05.16 |
[Start with Udemy Challengers] 3일차 학습 후기-자문자답 (0) | 2022.05.14 |