인프런 - 강의 252

11 - 드디어 엑셀로 저장, 불러오기

이번에는 엑셀로 저장하는 것을 해 보겠습니다. 엑셀에 글을 써서 test.xlsx라고 저장하면 이렇게 콤마로 찍을 수 있습니다. 이렇게 반복문을 사용할 수도 있고 이제 크롤링 해온 내용들을 한번 엑셀에 저장해보겠습니다. 아래는 코드 입니다. # 엑셀을 쓰기 위한 준비과정들 import requests from bs4 import BeautifulSoup req = requests.get('http://www.naver.com') soup = BeautifulSoup(req.text, 'html.parser') naver_list = [] for i in soup.select("#PM_ID_ct > div.header > div.section_navbar > div.area_hotkeyword.PM_CL_..

10 - 간단한 텍스트 가공법

크롤링을 하다 보면, 데이터가 예쁘게 나오지 않는 경우가 있습니다. 그럴 때를 대비한 간단한 텍스트 가공 방법에 대해서 알아보겠습니다. myinfo = "나왔어염뿌우^^" print(myinfo[0]) print(myinfo[1]) print(myinfo[4:6]) myinfo2 = "나왔어 뿌우^^" print(myinfo2.split(" ")) print(myinfo2.split(" ")[0]) print(myinfo2.split(" ")[1]) 나 왔 뿌우 ['나왔어', '뿌우^^'] 나왔어 뿌우^^ 이렇게 출력이 됩니다. myspace = " 양쪽에 띄워쓰기 1" print(myspace) print(myspace.strip()) sentence = ' 띄우쓰기 제거 해볼 까용 ' print(se..

9 - selenium 활용 (click)

일단 셀레니움 기본 코드를 써놨습니다. implicitly_wait 이 부분은 3초 쉰다고 말씀드렸는데, 페이지가 로드 되는 것 기다린다 라고 생각하시면 됩니다. 크게 신경쓸 부분은 아닙니다. 자, 그렇다면 이제 계속 해보는데, 오늘의 유머 사이트를 크롤링 해 봅니다. 여기까지 해서, html 태그를 다 뽑아올 수 있고 여기까지 해서 제목들 뽑아 올 수 있습니다. 여기에서 클릭을 통해서, 다양한 태그들을 한번 뽑아와보겠습니다. 아래와 같이 id를 찾아서 클릭해서, 사용할 수 있습니다. 코드 from bs4 import BeautifulSoup from selenium import webdriver driver = webdriver.Chrome('./chromedriver') # 3초 쉬고 driver.i..

8- selenium 사용법

이번에는 셀레니움을 사용하는 방법을 알아보겠습니다. 크롬 정보를 확인해줍니다. 그 다음에 버전에 맞는 크롬 웹 드라이버를 설치해주고 https://chromedriver.chromium.org/downloads 그런 다음, 파이썬 프로젝트에 넣어주고 얘를 실행을 한번 시켜봅니다. 그 다음 아래의 코드를 통해 네이버 로그인을 할 수 있습니다. -- 참조 https://beomi.github.io/2017/02/27/HowToMakeWebCrawler-With-Selenium/

6 - url 링크 찾아내서 크롤링

이번에는 url링크를 찾아내서 크롤링 하는 방법을 알아보겠습니다. 이번에는 동아일보 홈페이지로 갑니다 http://www.donga.com/news/List/Enter/?p=1&prod=news&ymd=&m= 이 사이트도 url의 패턴을 알아낼 수도 있기는 한데, 이번에는 다른 방법을 사용해보겠습니다. div page 아래의 a태그들을 다 찾습니다. 이렇게 받아올 수 있고 얘를 좀 더 가공하면 이렇게 됩니다. 그 다음 제목만 찾으면 되는데 그 다음에 이 2개의 코드를 합쳐주면 됩니다. 이렇게 하면 끝 :)

5 - 네이트판 여러 페이지 크롤링

네이트판 여러 페이지를 크롤링해보겠습니다. url을 보면 page= 부분이 변경되는 것을 알 수 있습니다. 그러면 아래와 같은 코드로 여러 페이지를 수집할 수 있는데, 이렇게 몇십페이지 치기는 너무 무식한?느낌이 듭니다. 때문에, 좀 아름답게 코드를 변경해보겠습니다. 그 전에 반복문 한번 보고 가면 이렇게 나옵니다. 아름답게 반복문으로 하면 이렇게 됩니다. 끝:)

4 - 네이트판 크롤링

자 이번에는 네이트판 게시글을 크롤링 해보겠습니다. 이 주소로 들어가면 https://pann.nate.com/talk/c20002?page=1 위와 같은 부분의 게시글들을 모두 크롤링 해볼텐데 select를 이용해서 경로를 찾으면 아래와 같이 나옵니다. #searchDiv > div.posting_wrap > table > tbody > tr.first 그러면 이제 이 부분을 이용해서 크롤링을 해 봅니다. 크롤링해보면, 뭔가 예쁘게 나오지 않는데 "a"태그를 찾아서 좀 더 예쁘게 바꿔봤습니다. 약간 문자열이 이쁘게 나오지 않는데, 저 문자열 가공하는 테크닉들은 뒤에서 다뤄 보도록 하겠습니당

3 - 네이버 인기검색어 크롤링

첫번째 방법과 (class_="") 두번재 방법으로 크롤링(select) import requests from bs4 import BeautifulSoup # 엔터치기 req = requests.get('http://www.naver.com') # 이런 식으로 HTML에 있는 코드를 다 가져온다 soup = BeautifulSoup(req.text, 'html.parser') # 첫번째 방법 # for i in soup.find_all("li", class_="ah_item") : # print(i.find(class_="ah_k").text) # print("") # 두번째 방법 # #PM_ID_ct > div.header > div.section_navbar > div.area_hotkeyword.P..

2 - 파이참 다운로드, 기본 크롤링

일단 파이썬 코드를 치기 위한 에디터를 다운 받습니다. 에디터는 아무 것이나 써도 상관 없는데, 파이참이 가장 이용하기 편하고 잘 되어있다고 생각해서 파이참을 사용하도록 하겠습니다. (컴퓨터에 파이썬이 설치되어 있어야 합니다.) 자 얘를 다운받으면 파이썬 프로젝트 만들기가 가능합니다. 다운받을 때 나오는 이상한 애들은 그냥 다 NEXT누르시면 알아서 설치가 됩니다. 그 다음에 프로젝트를 만들기 시작해서 이렇게 myFirst 파일을 만들어줍니다. 그 다음에는, 간단한 크롤링 코드를 넣어보겠습니다. 빨간줄이 뜬 것은 import해주시면 됩니다. 자 얘네들을 실행시키면 네이버에 있는 전체 코드가 출력이 됩니다. 다음시간에는 얘네들 중에 있는 정보 중, 특별하게 저희가 사용하고 싶은 정보만 가져오는 것들을 한번..