2주차 - 2 [웹/웹 스크래핑(크롤링)] 고려할 점과 requests 라이브러리

데브코스 TIL

터칭 데이터 2023. 10. 24. 17:52

두괄식 요약

1. 웹 크롤링은 URL을 타고 다니며 반복적으로 데이터를 가져오는 과정, 웹 스크래핑은 특정한 목적을 갖고 특정 웹 페이지에서 데이터를 추출하는 과정

2. 막대한 데이터를 빠르게 얻을 수 있다는 강점이 있지만.. 웹 스크래핑 이전에 고민해봐야 할 지점이 있다.

타인이 오랫동안 고생해서 얻은 데이터들을 무상으로, 그것도 서버에 부담까지 주면서 '약탈'해가고 심지어 이를 활용해 상업적으로 이용해 기존의 시장 점유율까지 침식해가는 것은 명백하게 비윤리적인 행위

3. 웹 페이지들이 저마다 공시한 REP(Robot Exclusion Protocol)를 준수해 스크래핑을 진행하자.

4. DOM에 대한 기초 이해와 이렇게 만들어진 트리들의 노드에 접근하는 것이 웹 스크래핑의 핵심

브라우저는 웹 문서를 로드 후, 파싱을 진행해 DOM(Document Object Model)화를 진행한다.

이 때 트리 형태의 노드로 객체화된 HTML 태그들에 빠르게 접근해 정보를 취사선택하는 것이 스크래핑의 원리

터칭 데이터

funqa, ChatGPT, 채용의나라, FQA, 넥슨게임즈, URL 별칭, Templates, 연결 리스트, 넥토리얼, seaborn, Fun QA, 재귀, 챗지피티, 가상환경, Django, 이분탐색, 데이터 시각화, 워드클라우드, 장고, Seabron,