기억 휘발 방지소

[Node.js] Puppeteer로 크롤링하기 본문

Web/Node.js

[Node.js] Puppeteer로 크롤링하기

choice91 2021. 10. 29. 18:34
728x90
반응형

📌 크롤링

크롤링이란 웹 페이지를 그대로 가져와서 거기서 데이터를 추출하는 행위를 말한다.
크롤링하는 SW는 크롤러(Crawler)라고 부른다.

 

📌 Puppeteer

파이썬에서 Selenium으로 크롤링을 하듯이 Node.js에서는 Puppeteer로 크롤링을 할 수 있다.

 

📌 Puppeteer 사용하기

아래 코드로 브라우저와 새 창을 띄우고 닫는 코드이다.

const puppeteer = require("puppeteer");

const crawler = async () => {
  try {
    // 브라우저 생성
    const browser = await puppeteer.launch({ headless: false });
    // 새로운 페이지 생성
    const page = await browser.newPage();
    // 페이지 닫기
    await page.close();
    // 브라우저 닫기
    await browser.close();
  } catch (error) {
    console.log(error);
  }
};

crawler();

원하는 데이터를 수집했으면 browser.close()로 닫아줘야한다.

 

📌 여러가지 메소드들

1. goto()

'이동할 URL'로 자동으로 이동한다.

await page.goto("이동할 URL");

2. setViewport()

기본 해상도가 800 * 600이다.

setViewport로 바꿔줄 수 있다.

await page.setViewport({ width: 1920, height: 1080 });

3. waitForSelector()

해당 선택자의 콘텐츠가 로드될 때까지 대기한다.

await page.waitForSelector("#container > div.wrap > ul > li.masonry-brick");

4. $()

$()는 querySelector를 실행하고 선택자에 해당하는 DOM을 반환한다.

const element = await page.$("#container > div.wrap > ul > li.masonry-brick");

5. $eval()

$eval()은 첫 번째 인자로 선택자를 두 번째 인자는 pageFunction이다.

 

하나의 선택자에 대해서만 동작하고 pageFunction을 실행하여 값을 반환한다.

const title = await element.$eval(
  "#container > div.wrap > ul > li:nth-child(1) > div > a > span",
  (el) => {
    return el.textContent;
  }
);
728x90
반응형