August 9, 2022

220809(화)

🪴 성장일지

책 행복한 이기주의자(웨인 다이어)의 내용에 자극받아 시작하는 소박한 성장기록

살아있는 꽃과 죽은 꽃은 어떻게 구별하는가?<br/> 성장하고 있는 것이 살아 있는 것이다.<br/> 생명의 유일한 증거는 성장이다!

🌳 키워드

패키지

모듈(기능들의 묶음)을 모아놓은 것으로, 이런 패키지의 묶음을 라이브러리고 함. 일반적으로 패키지와 라이브러리는 혼용해서 사용

`python`가상 환경(Virtual Environment)

같은 시스템에서 실행되는 다른 파이썬 응용 프로그램들의 동작에 영향을 주지 않기 위해서 따로 배포 패키지들을 설치 및 업그레이드할 수 있게 해주는 격리된 실행 환경

프로젝트마다 사용하는 패키지는 다르고, 그 버전이 다르기도 함. 컴퓨터 한 대에서 여러 프로젝트를 진행 시, 각 프로젝트마다 가상 환경을 만들고 필요한 패키지를 선택적으로 구성하여 활용할 수 있음

<!-- 프로젝트 폴더에서 .venv라는 폴더 생성 -->
python3 -m venv .venv
<!-- 가상환경 활성화 -->
source .venv/bin/activate
<!-- 활성화 후 패키지 설치(가상 환경에 설치됨) -->
pip install requests

`python` requests 패키지

import requests

r = reqeusts.get('api url')
rjson = r.json()

print(rjson) # 데이터 확인

`python` 웹 스크레이핑(scraping) feat.bs4

웹 스크레이핑이란 웹 페이지에서 원하는 부분의 데이터를 수집해오는 것을 의미

🔴 크롤링(crawling) 자동화하여 주기적으로 웹 페이지를 돌아다니며 분류/색인하고 업데이트 된 부분을 찾는 등읠 일을 하는 것 참고: 스크레이핑 vs 크롤링

import requests
from bs4 import BeautifulSoup

headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'}
data = requests.get('스크래이핑할 페이지 url',headers=headers)

# BeautifulSoup 라이브러리을 통해 HTML을 검색하기 용이한 상태로 만듦
# soup이라는 변수에 "파싱하기 용이한 html"이 저장됨
soup = BeautifulSoup(data.text, 'html.parser')
# 데이터 확인
print(soup)

참고: bs4 공식 문서

DB(DataBase)

RDBMS(SQL)

엑셀처럼 데이터를 행과 열의 표 형태로 저장
데이터가 일관적이고 분석이 편함
단, 중간에 열(컬럼)을 추가하는 등이 어려움

NoSQL

딕셔너리 형태로 데이터를 저장
데이터마다 같은 필드값을 가질 필요가 없이 비교적 자유로운 데이터 적재 방식
단, 그만큼 데이터의 일관성이 떨어짐

undefined