Notice
Recent Posts
Recent Comments
Link
터칭 데이터
2주차 - 2 [웹/웹 스크래핑(크롤링)] 고려할 점과 requests 라이브러리 본문
두괄식 요약
1. 웹 크롤링은 URL을 타고 다니며 반복적으로 데이터를 가져오는 과정, 웹 스크래핑은 특정한 목적을 갖고 특정 웹 페이지에서 데이터를 추출하는 과정
2. 막대한 데이터를 빠르게 얻을 수 있다는 강점이 있지만.. 웹 스크래핑 이전에 고민해봐야 할 지점이 있다.
타인이 오랫동안 고생해서 얻은 데이터들을 무상으로, 그것도 서버에 부담까지 주면서 '약탈'해가고 심지어 이를 활용해 상업적으로 이용해 기존의 시장 점유율까지 침식해가는 것은 명백하게 비윤리적인 행위
3. 웹 페이지들이 저마다 공시한 REP(Robot Exclusion Protocol)를 준수해 스크래핑을 진행하자.
4. DOM에 대한 기초 이해와 이렇게 만들어진 트리들의 노드에 접근하는 것이 웹 스크래핑의 핵심
브라우저는 웹 문서를 로드 후, 파싱을 진행해 DOM(Document Object Model)화를 진행한다.
이 때 트리 형태의 노드로 객체화된 HTML 태그들에 빠르게 접근해 정보를 취사선택하는 것이 스크래핑의 원리
'데브코스 TIL' 카테고리의 다른 글
2주차 - 4 [웹/웹 스크래핑(크롤링)] Selenium (0) | 2023.10.26 |
---|---|
2주차 - 3 [웹/웹 스크래핑(크롤링)] BeautifulSoup (0) | 2023.10.25 |
2주차 - 1 [웹/웹 스크래핑(크롤링)] 웹과 HTML (0) | 2023.10.23 |
1주차 - 5 [특강] ChatGPT 활용하기 (0) | 2023.10.20 |
1주차 - 4 [자료구조/알고리즘] 기초 알고리즘 문제 (0) | 2023.10.19 |