이번에는 url링크를 찾아내서 크롤링 하는 방법을 알아보겠습니다.
이번에는 동아일보 홈페이지로 갑니다
http://www.donga.com/news/List/Enter/?p=1&prod=news&ymd=&m=
이 사이트도 url의 패턴을 알아낼 수도 있기는 한데, 이번에는 다른 방법을 사용해보겠습니다.
div page 아래의 a태그들을 다 찾습니다.
이렇게 받아올 수 있고 얘를 좀 더 가공하면
이렇게 됩니다. 그 다음 제목만 찾으면 되는데
그 다음에 이 2개의 코드를 합쳐주면 됩니다.
이렇게 하면 끝 :)
'인프런 - 강의 > 초간단 초스피드 데이터 수집 (파이썬 크롤링)' 카테고리의 다른 글
8- selenium 사용법 (0) | 2019.12.21 |
---|---|
7 - 뉴스 기사 내용까지 추출하기 (0) | 2019.12.20 |
5 - 네이트판 여러 페이지 크롤링 (1) | 2019.12.20 |
4 - 네이트판 크롤링 (0) | 2019.12.20 |
3 - 네이버 인기검색어 크롤링 (0) | 2019.12.17 |