heyday2024 님의 블로그
[사전캠프 5주차] 마지막! 파이썬 본문
firebase 한계점
(백엔드에 대한 컨트롤을 일부 잃게 됨/ 커스터마이징 힘들다....)
1) 서버 제어 제한: 파이어베이스는 서버 인프라에 대한 직접적인 컨트롤 제한됨.
(파이어베이스에서 제공하는 기능, 방식에 따라 작업 수행해야함.)
2) 확장성 제약: 파이어베이스는 규모에 따른 가로 확장성 측면에 제한이 있음
3) 종속성: 파이어베이스 사용 시 google서비스에 의존하게되기 떄문에 외부의 다른 서비스나 기능 활용 어려움.
파이썬 사용!!
(파이어베이스의 제한 사항을 넘어선 더 많은 컨트롤 가능!(다양성, 유연성))
1) 개발자가 원하는 방식으로 서버 구축, 관리 가능
2) 서버의 확장성 조절 가능, 필요에 따라 리소스를 추가하거나 조정할 수 있음
(대규모 기업이나 많은 트래픽을 처리해야하는 프로젝트에서 중요함)
3) 다른 서비스와의 통합이나 원하는 기능을 더욱 유연하게 구현가능.
https://colab.research.google.com
웹 스크래핑 연습
import requests
from bs4 import BeautifulSoup
URL = "https://bit.ly/web-movie"
headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'}
data = requests.get(URL, headers=headers)
soup = BeautifulSoup(data.content, 'html.parser')
title = soup.select_one('#boxoffice_list_content > ul > li:nth-child(1) > a > div.mov_name')
print(title)
print(title.text)
이런 식으로 웹 페이지에서 관련 정보를 솎아내서 가져오는 것을 웹스크래핑!
웹 크롤링?
웹 크롤링은 데이터를 체계적으로 스캔하는 자동화된 프로세스.
Google, Bing 등과 같은 검색엔진은 웹 페이지에 대한 정보를 쉽게 찾아볼 수 있도록 인덱싱하고 이를 저장함.
이러한 검색엔진들은 웹크롤러를 사용해서 웹 사이트에 대한 데이터를 수집하고, 검색이 더욱 쉽고 효율적일 수 있게 구조를 구축함.
웹 크롤링 프로세스:
1) 스파이더 또는 봇이라고도 하는 검색엔진의 크롤러가 웹사이트를 만들고 그 콘텐츠를 분석함.
2) 그 후 크롤러는 웹사이트의 링크를 따라 다른 페이지로 이동하고, 크롤러가 웹사이트 및 링크된 웹사이트에서 가능한 많은 부분을 인덱싱 처리할 때까지 프로세스가 계속됨.
3) 이떄 웹 크롤러는 복잡한 알고리즘을 사용해서 정보를 식별하고 분류함.
웹 페이지가 적절한 키워드의 검색으로 잘 노출이 되길 원한다면, 페이지제목, 메타 태그, 링크, 이미지 및 콘텐츠를 포함한 웹 페이지에 대한 정보가 중요하게 다뤄져야함.
웹 스크래핑?
웹 스크래핑은 웹사이트에서 데이터를 추출하는 프로세스.
웹사이트에서 텍스트, 이미지, 비디오 등의 데이터를 웹 스크레이퍼 또는 데이터 추출기라는 자동화 도구로 추출해내는 과정.
HTML 및 XML 문서 구문 분석을 포함하여 웹 스크래핑에 사용되는 다양한 기술이 있음.
웹 크롤링 VS 웹 스크래핑
프로세스 자체가 다름.
- 웹 크롤링은 웹사이트에 대한 정보를 색인화하고 저장하는 데 사용!
- 웹 스크래핑은 분석 및 기타 목적을 위해 웹사이트에서 데이터를 추출하는 데 사용!
- 웹 크롤러는 웹사이트의 링크를 따라 링크에 대한 정보를 색인화하는 반면 웹 스크래퍼는 다양한 기술을 사용하여 웹사이트에서 특정 데이터를 추출함.
- 일반적으로 웹크롤링은 검색 엔진 및 기타 자동화 도구에 의해 수행되는 반면 웹 스크래핑은 종종 사람 또는 이 목적을 위해 특별히 설계된 자동화 도구에 의해 수행됨.
firebase 이용해서 과제까지 완료!!
'프론트엔드 부트캠프' 카테고리의 다른 글
첫 프로젝트- 팀 페이지 만들기 (4) | 2024.10.02 |
---|---|
마지막 퀘스트!! 스타벅스 주문서 (0) | 2024.09.30 |
[사전캠프 5주차] Github으로 배포하기 (2) | 2024.09.23 |
[사전캠프 퀘스트] mbti 설문지 (6) | 2024.09.21 |
[사전캠프 퀘스트] 로또 번호 생성기 (0) | 2024.09.21 |