Yours Ever, Data Chronicles
[Python Crawling] 네이버 쇼핑 검색결과 크롤링하기 (3) - 네이버 API 활용하기 본문
Skillset/Data Engineering
[Python Crawling] 네이버 쇼핑 검색결과 크롤링하기 (3) - 네이버 API 활용하기
Everly. 2024. 2. 29. 17:52저번 포스팅까지는 네이버 쇼핑 검색결과를 Selenium, Beautifulsoup 라는 파이썬 패키지를 활용하여 크롤링하였다.
이렇게 크롤링한 결과도 꽤 괜찮았지만, 여기엔 3가지 문제가 있었다.
- 첫번째, 중간에 안 긁어지는 부분이 있다.
- ➡️ 검색결과 로딩이 느려 안 긁어와지는 부분은, 페이지를 맨 끝까지 내리는 방법으로(관련 포스팅) 해결하였다. 그러나 이 외에도 검색결과를 많이 수집하는 경우(검색 결과 페이지를 5페이지 이상) 중간에 안 긁히는 부분이 발견되었다.
- 두번째, 이미지를 긁어오기 어렵다.
- 마지막으로, 많은 양을 크롤링하는 경우 시간이 많이 걸린다.
그래서 이번 장에서는 네이버 개발자센터에서 제공하는 네이버 API를 활용하는 방법을 포스팅한다.
앞서 이야기한 3가지 방법을 이 방법으론 전부 해결할 수 있고, 특히 가장 좋은 방법은 시간이 매우 단축된다는 점이다.
시간이 왜 이렇게 단축되는 것일까? 결론부터 말하자면, selenium으로 크롤링하는 방법은 페이지에 나온 정보들을 하나하나 긁어오는 방법인 반면, API를 활용하는 방법은 이미 그 페이지에 사용된 정보를 앞단에서 전달해주는 방법이기 때문이다. 즉 엄밀히 말하면 일반적으로 '정보를 긁어온다' 는 크롤링의 개념은 selenium 방법이라고 보는 게 맞다.
반응형
'Skillset > Data Engineering' 카테고리의 다른 글
[Airflow] Airflow에 Slack 연동하여 메시지 호출하기 (0) | 2025.01.06 |
---|---|
[Python Crawling] 크롤링 웹사이트 밑으로 내리기 - window height, scrollheight (1) | 2024.02.29 |
[Airflow] DAG에 스케줄 거는 방법 (DAG schedule_interval Setting) (2) | 2024.01.08 |
[Python Crawling] 네이버 쇼핑 검색결과 크롤링하기 (2) - Selenium, BeautifulSoup (2) | 2022.11.22 |
[Python Crawling] 네이버 쇼핑 검색결과 크롤링하기 (1) - Selenium, BeautifulSoup (3) | 2022.11.21 |