250x250
Notice
Recent Posts
Recent Comments
- Today
- Total
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- wil
- css
- AWS
- Find
- moment
- await
- mongodb
- Nodejs
- TailwindCSS
- nginx
- atlas
- TypeScript
- double quote
- Node.js
- RDS
- EC2
- jsonwebtoken
- clipBehavior
- https
- Express
- JavaScript
- flutter
- single quote
- mongoose
- certbot
- til
- async
- MYSQL
- sequelize
- findByIdAndDelete
Link
Archives
기억 휘발 방지소
[Node.js] Puppeteer로 크롤링하기 본문
728x90
반응형
📌 크롤링
크롤링이란 웹 페이지를 그대로 가져와서 거기서 데이터를 추출하는 행위를 말한다.
크롤링하는 SW는 크롤러(Crawler)라고 부른다.
📌 Puppeteer
파이썬에서 Selenium으로 크롤링을 하듯이 Node.js에서는 Puppeteer로 크롤링을 할 수 있다.
📌 Puppeteer 사용하기
아래 코드로 브라우저와 새 창을 띄우고 닫는 코드이다.
const puppeteer = require("puppeteer");
const crawler = async () => {
try {
// 브라우저 생성
const browser = await puppeteer.launch({ headless: false });
// 새로운 페이지 생성
const page = await browser.newPage();
// 페이지 닫기
await page.close();
// 브라우저 닫기
await browser.close();
} catch (error) {
console.log(error);
}
};
crawler();
원하는 데이터를 수집했으면 browser.close()로 닫아줘야한다.
📌 여러가지 메소드들
1. goto()
'이동할 URL'로 자동으로 이동한다.
await page.goto("이동할 URL");
2. setViewport()
기본 해상도가 800 * 600이다.
setViewport로 바꿔줄 수 있다.
await page.setViewport({ width: 1920, height: 1080 });
3. waitForSelector()
해당 선택자의 콘텐츠가 로드될 때까지 대기한다.
await page.waitForSelector("#container > div.wrap > ul > li.masonry-brick");
4. $()
$()는 querySelector를 실행하고 선택자에 해당하는 DOM을 반환한다.
const element = await page.$("#container > div.wrap > ul > li.masonry-brick");
5. $eval()
$eval()은 첫 번째 인자로 선택자를 두 번째 인자는 pageFunction이다.
하나의 선택자에 대해서만 동작하고 pageFunction을 실행하여 값을 반환한다.
const title = await element.$eval(
"#container > div.wrap > ul > li:nth-child(1) > div > a > span",
(el) => {
return el.textContent;
}
);
728x90
반응형
'Web > Node.js' 카테고리의 다른 글
[Node.js] moment.js로 날짜 표시하기 (0) | 2022.01.04 |
---|---|
[Node.js] req.body, req.params, req.query에 대하여 with Express, Axios (0) | 2021.10.30 |
[Node.js] Nodemailer로 이메일 전송하기 with Gmail (1) | 2021.10.19 |
[Node.js] express-validator로 유효성 검증하기 (0) | 2021.10.16 |
[Node.js] jsonwebtoken (0) | 2021.10.12 |