터칭 데이터

2주차 - 2 [웹/웹 스크래핑(크롤링)] 고려할 점과 requests 라이브러리 본문

데브코스 TIL

2주차 - 2 [웹/웹 스크래핑(크롤링)] 고려할 점과 requests 라이브러리

터칭 데이터 2023. 10. 24. 17:52

두괄식 요약

1. 웹 크롤링은 URL을 타고 다니며 반복적으로 데이터를 가져오는 과정, 웹 스크래핑은 특정한 목적을 갖고 특정 웹 페이지에서 데이터를 추출하는 과정

 

 

2. 막대한 데이터를 빠르게 얻을 수 있다는 강점이 있지만.. 웹 스크래핑 이전에 고민해봐야 할 지점이 있다.

타인이 오랫동안 고생해서 얻은 데이터들을 무상으로, 그것도 서버에 부담까지 주면서 '약탈'해가고 심지어 이를 활용해 상업적으로 이용해 기존의 시장 점유율까지 침식해가는 것은 명백하게 비윤리적인 행위

 

 

3. 웹 페이지들이 저마다 공시한 REP(Robot Exclusion Protocol)를 준수해 스크래핑을 진행하자.

 

 

4. DOM에 대한 기초 이해와 이렇게 만들어진 트리들의 노드에 접근하는 것이 웹 스크래핑의 핵심

브라우저는 웹 문서를 로드 후, 파싱을 진행해 DOM(Document Object Model)화를 진행한다.

이 때 트리 형태의 노드로 객체화된 HTML 태그들에 빠르게 접근해 정보를 취사선택하는 것이 스크래핑의 원리

 

웹 스크래핑의 기초인 Requests의 개념과 실습