일단 기본적인 Scrapy 프로젝트를 만들면 위와 같이 나옵니다.(NewsUrlSpider.py는 만든 파일)
하나씩 보면
spiders 폴더 - 크롤러를 설정합니다. 실제로 데이터를 긁어오는 부분
items.py - 모델을 정의합니다. 어떤 형태로 모델을 만들어서 데이터로 저장할지 결정해주는 부분입니다.
middlewares.py - 이름처럼 중간 세팅을 할 수 있습니다. 중간에 어떤 액션을 추가할지 등을 정할 수 있습니다.
piplines.py - 데이터를 어떻게 저장할지 정합니다. 엑셀로 저장 or DB에 넣기에 대한 부분을 설정해줍니다.
setting - 이름에서 볼 수 있듯이 크롤러 세팅입니다. 크롤러에 전체적인 세팅을 추가할 수 있습니다.
'개발 > 잡다개발' 카테고리의 다른 글
ESMTP (0) | 2020.06.14 |
---|---|
Readers Writer Problems (0) | 2020.05.30 |
파이썬 크롤링 도구 (0) | 2020.05.27 |
B+ Tree (0) | 2020.05.25 |
구글 colab import csv read as pandas (0) | 2020.05.24 |