터칭 데이터

2주차 - 3 [웹/웹 스크래핑(크롤링)] BeautifulSoup 본문

데브코스 TIL

2주차 - 3 [웹/웹 스크래핑(크롤링)] BeautifulSoup

터칭 데이터 2023. 10. 25. 17:20

두괄식 요약

1. requests로 요청후 받게 된 DOM 객체를 파싱해 원하는 데이터를 추출하는 것이 웹 스크래핑의 기본 과정

2. DOM 객체의 파싱을 도와주는 라이브러리가 BeautifulSoup

3. 정적(static)인 웹페이지에 대한 파싱 및 데이터 추출이 BeatifulSoup의 주력분야

4. 동적(dynamic)인 웹을 처리하는 Selenium 역시 BeatifulSoup와 마찬가지로 원하는 데이터가 어디있는지 타게팅하는 것이 스크래핑 실력의 척도

5. 웹 스크래핑 자체는 쉬운 작업이지만 다양한 형태의 웹이 발생시키는 예외처리에 대응하는 것 역시 매우 중요

 

 

BeautifulSoup의 기본기

 

타게팅(1) - 태그

 

타게팅(2) - ID와 Class

 

requests시 보낼 헤더에 대한 접근 & 페이지네이션