인프런 - 강의/초간단 초스피드 데이터 수집 (파이썬 크롤링) 15

5 - 네이트판 여러 페이지 크롤링

네이트판 여러 페이지를 크롤링해보겠습니다. url을 보면 page= 부분이 변경되는 것을 알 수 있습니다. 그러면 아래와 같은 코드로 여러 페이지를 수집할 수 있는데, 이렇게 몇십페이지 치기는 너무 무식한?느낌이 듭니다. 때문에, 좀 아름답게 코드를 변경해보겠습니다. 그 전에 반복문 한번 보고 가면 이렇게 나옵니다. 아름답게 반복문으로 하면 이렇게 됩니다. 끝:)

4 - 네이트판 크롤링

자 이번에는 네이트판 게시글을 크롤링 해보겠습니다. 이 주소로 들어가면 https://pann.nate.com/talk/c20002?page=1 위와 같은 부분의 게시글들을 모두 크롤링 해볼텐데 select를 이용해서 경로를 찾으면 아래와 같이 나옵니다. #searchDiv > div.posting_wrap > table > tbody > tr.first 그러면 이제 이 부분을 이용해서 크롤링을 해 봅니다. 크롤링해보면, 뭔가 예쁘게 나오지 않는데 "a"태그를 찾아서 좀 더 예쁘게 바꿔봤습니다. 약간 문자열이 이쁘게 나오지 않는데, 저 문자열 가공하는 테크닉들은 뒤에서 다뤄 보도록 하겠습니당

3 - 네이버 인기검색어 크롤링

첫번째 방법과 (class_="") 두번재 방법으로 크롤링(select) import requests from bs4 import BeautifulSoup # 엔터치기 req = requests.get('http://www.naver.com') # 이런 식으로 HTML에 있는 코드를 다 가져온다 soup = BeautifulSoup(req.text, 'html.parser') # 첫번째 방법 # for i in soup.find_all("li", class_="ah_item") : # print(i.find(class_="ah_k").text) # print("") # 두번째 방법 # #PM_ID_ct > div.header > div.section_navbar > div.area_hotkeyword.P..

2 - 파이참 다운로드, 기본 크롤링

일단 파이썬 코드를 치기 위한 에디터를 다운 받습니다. 에디터는 아무 것이나 써도 상관 없는데, 파이참이 가장 이용하기 편하고 잘 되어있다고 생각해서 파이참을 사용하도록 하겠습니다. (컴퓨터에 파이썬이 설치되어 있어야 합니다.) 자 얘를 다운받으면 파이썬 프로젝트 만들기가 가능합니다. 다운받을 때 나오는 이상한 애들은 그냥 다 NEXT누르시면 알아서 설치가 됩니다. 그 다음에 프로젝트를 만들기 시작해서 이렇게 myFirst 파일을 만들어줍니다. 그 다음에는, 간단한 크롤링 코드를 넣어보겠습니다. 빨간줄이 뜬 것은 import해주시면 됩니다. 자 얘네들을 실행시키면 네이버에 있는 전체 코드가 출력이 됩니다. 다음시간에는 얘네들 중에 있는 정보 중, 특별하게 저희가 사용하고 싶은 정보만 가져오는 것들을 한번..

1 개요

초스피드 초간단 데이터 수집 강의입니다. 오프라인 강의를 진행하면서, 직장인분들과 대학생분들이 관심을 가지고 있는 크롤링에 대해서 강의를 제작했습니다. 1. 코드 6줄로 크롤링하기 2. 동적으로 버튼을 누르면서 크롤링 3. 엑셀로 쓰기 읽기 4. 약간의 텍스트 가공법 의 내용들로 구성되어 있습니다. 빠른 시간 안에 쉽게 배울 수 있도록 신경쓴 강의입니다. 감사합니다 :)