[추천]웹 스크레이퍼 (Chrome Extension 크롬 확장프로그램, Site parsing tool)

스크래핑(Web Scraping, 웹 크롤링) 시작하기

“웹 스크래핑(크롤링)이라고 하는 작업은 정형화된 일이 아니고, 페이지 마다 다르기 때문에 먼저 수집하려는 페이지를 분석해야 합니다. 어떤 규칙을 통해 짜여있는지 그리고 원하는 정보는 어떻게 구성되어 있는지를 분석하는 것에서 부터 시작하게 됩니다.” ( 출처 : Web Scraping(웹 크롤링) 시작하기 )

 

Q. 이 사이트는 무엇으로 만들었지 ? 에 관한 답을 제시하는 저희의 다른 게시글이 장기적으로는 스크래핑하고자 하는 사이트의 구조를 이해하는데 많이 도움을 줄 것이라고 생각합니다. 저는 개인적으로 wappalyzer(와플 라이저)를 많이 이용하고 있습니다. 

[추천]홈페이지 빌더(웹사이트 빌더, 쇼핑몰 빌더) 분석 사이트들(도구들) / 사이트 벤치마킹 사이트들(도구들) : Q. 이 사이트는 무엇으로 만들었지 ?

 

스크래핑(크롤링)하고자하는 사이트의 구조를 쉽게 살펴볼 수 있는 방법중 하나는 sitemap을 살펴보는 것일 것 같습니다.  (초록색은 가설입니다. 아직 입증하지 못하였습니다. )

사이트맵은 사이트에 있는 페이지, 동영상 및 기타 파일과 각 관계에 관한 정보를 제공하는 파일입니다. Google과 같은 검색엔진은 이 파일을 읽고 사이트를 더 지능적으로 크롤링하게 됩니다. 사이트맵은 크롤러에게 내가 사이트에서 중요하다고 생각하는 파일을 알리고 이러한 파일에 관한 중요한 정보를 제공합니다

사이트맵은 보통 www.example.com/sitemap.xml, www.example.kr/sitemap.xml 와 같이 root directory에 위치하게 됩니다. 

 

 

처음엔 정말 생소한데, 따라하다보면 신기하게 정말 됩니다.

장점이자 단점은 크롬에서만 가능하다는 것인데, 다른 파싱 프로글램들이 PC에 설치하여 구동하는 것에 비교하면 이것은 큰 장점입니다. 

 

  • 웹 스크레이퍼 (Chrome)

웹 스크래퍼는 웹 스크래핑을 위해 Google 크롬 브라우저에서 사용할 수있는 훌륭한 웹 스크래퍼입니다. 웹 사이트 탐색 방법과 사이트에서 가져온 데이터를 스크랩해야하는 사이트 맵 (계획)을 만들 수 있습니다.
Chrome에 확장 프로그램을 추가하고 개발자 도구에서 확장 프로그램을 찾으십시오.
https://chrome.google.com/webstore/detail/web-scraper/jnhgnonknehpejjnehehllkliplmbmhn?hl=ko

 
사이트 맵에 따라 긁어내는 데이터의 종류를 Web Scraper에 알리려면 사이트 맵 (계획)을 설정하거나 가져와야합니다. Chrome을 사용하고 익숙해지면 사용하기 쉽고 간단합니다. 이 프리웨어를 사용하면 여러 웹 페이지의 데이터를 스크랩하고 동적 웹 페이지를 처리 ​​할 수 ​​있지만 내장 된 자동화 기능이 많지 않을 수 있습니다.
 
이 프리웨어를 사용하는 방법을 배우는 데 잠시 시간이 걸리지 만 Web Scraper에서 깨끗한 데이터를 가져와 추출 된 데이터를 CSV 파일로 내보낼 수 있습니다.
 

 

Start using Web Scraper now!

아래의 순서대로 따라 하세요.  Tutorials 에는 동영상 설명이 있고  Documentation 에는 상세 문서 설명이 있습니다. 동영상을 보시고 따라 하신후 문서를 살펴보시는 것이 이해가 쉽습니다. 
 


Learn from Tutorials and Documentation

Scrape your first site
 

Video Tutorials

Intro video

Navigate multi-level navigation to scrape all items in an e-commerce site.


Pagination

Scrape e-commerce sites with pagination.


Multiple records

Extract multiple records fro


Documentation

영어로 되어 있는 설명을 번역해 주고, 해보면서 겪어던 시행착오를 기록하여 담으면 훌륭한 paring tool이 됩니다. 

 

This site uses Akismet to reduce spam. Learn how your comment data is processed.