Content

Board ID 1118
Writer 허진경
Write Date 2022-06-08 17:57:50
Subject 신한 DS 1일차
Content 웹 데이터 수집을 하려면... - HTML문서를 이해, 파싱 BeautifulSoup 라이브러리 - HTML 파싱에 사용 - 웹데이터 수집 requests - 단순 요청으로 데이터를 가져올 때 Selenium - 웹애플리케이션 테스트 브라우저를 자동화 해서 데이터를 수집 - 데이터 저장 Pandas 라이브러리 - 데이터프레임 * 브라우저의 엔진 - 렌더링 엔진(레이아웃 엔진) HTML문서를 파싱 -> DOM(돔) 트리 --> DOM + CSS룰 -> 렌더트리 CSS 문서를 파싱 -> CSS 룰 --> * HTML 문서에서 특정 요소를 가져오려면 - 웹 데이터 요청 - 파싱 : BeautifulSoup(태그 텍스트, 파서) - 원하는 요소 찾기 : select(CSS선택자) CSS 선택자는 HTML 문서에서 특정 요소를 찾기 위한 규칙 -- 웹페이지 파싱 BeautifulSoup -- 페이지 요청 requests -- 서버의 데이터 형식 = HTML, JSON(response.json()), XML -- XML 문서 파싱 후 처리 예 - 뉴스 RSS 정보 조회 후 뉴스 기사 수집 RSS 서버 주소 requests.get BeautifulSoub으로 파싱 원하는 요소를 찾아 출력 - 파이썬의 데이터를 다루는 패키지 Numpy(넘파이) - AI Pandas(판다스) - EDA, ML AI > ML > ANN(인공신경망) > DL 데이터 분석은?
File
데이터 분석에서 중요한 것은.png (95,467byte)