Web/Node.js
[Node.js] Puppeteer로 크롤링하기
choice91
2021. 10. 29. 18:34
728x90
반응형
📌 크롤링
크롤링이란 웹 페이지를 그대로 가져와서 거기서 데이터를 추출하는 행위를 말한다.
크롤링하는 SW는 크롤러(Crawler)라고 부른다.
📌 Puppeteer
파이썬에서 Selenium으로 크롤링을 하듯이 Node.js에서는 Puppeteer로 크롤링을 할 수 있다.
📌 Puppeteer 사용하기
아래 코드로 브라우저와 새 창을 띄우고 닫는 코드이다.
const puppeteer = require("puppeteer");
const crawler = async () => {
try {
// 브라우저 생성
const browser = await puppeteer.launch({ headless: false });
// 새로운 페이지 생성
const page = await browser.newPage();
// 페이지 닫기
await page.close();
// 브라우저 닫기
await browser.close();
} catch (error) {
console.log(error);
}
};
crawler();
원하는 데이터를 수집했으면 browser.close()로 닫아줘야한다.
📌 여러가지 메소드들
1. goto()
'이동할 URL'로 자동으로 이동한다.
await page.goto("이동할 URL");
2. setViewport()
기본 해상도가 800 * 600이다.
setViewport로 바꿔줄 수 있다.
await page.setViewport({ width: 1920, height: 1080 });
3. waitForSelector()
해당 선택자의 콘텐츠가 로드될 때까지 대기한다.
await page.waitForSelector("#container > div.wrap > ul > li.masonry-brick");
4. $()
$()는 querySelector를 실행하고 선택자에 해당하는 DOM을 반환한다.
const element = await page.$("#container > div.wrap > ul > li.masonry-brick");
5. $eval()
$eval()은 첫 번째 인자로 선택자를 두 번째 인자는 pageFunction이다.
하나의 선택자에 대해서만 동작하고 pageFunction을 실행하여 값을 반환한다.
const title = await element.$eval(
"#container > div.wrap > ul > li:nth-child(1) > div > a > span",
(el) => {
return el.textContent;
}
);
728x90
반응형