'개발/웹 스크래핑' 카테고리의 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Tags more

Archives

Today

Total

관리 메뉴

목록개발/웹 스크래핑 (16)

사진과 음악을 좋아하는 개발자 지망생의 블로그

[Web Scraping 기초] 워드클라우드(Wordcloud) 만들기

워드클라우드 - 파이썬을 활용해 텍스트 구름을 그릴 수 있는 텍스트 클라우드 라이브러리 - 한글을 사용 시 한국어 형태소 분석기 라이브러리인 konlpy를 별도로 설치해줘야 한다 1) wordcloud 및 konlpy 설치 - pip install을 통해 간단하게 설치할 수 있다 (cmd창에 아래 코드 입력, Jupyter Notebook에선 맨 앞에 % 붙임) pip install wordcloud pip install konlpy 2) wordcloud 만들기 - WordCloud를 만드는 방법은 다음과 같습니다. 1. KoNLPy 라이브러리로 한국어 문장을 전처리 2. Counter를 이용해 빈도수 측정 3. WordCloud를 이용해 시각화 - 애국가를 활용하여 워드클라우드 만들기 ① 필요한 라이..

개발/웹 스크래핑 2023. 4. 21. 14:43

[Web Scraping 기초] Seaborn - 스크래핑 결과 시각화하기

1) 기상청 날씨 스크래핑하기 - 기상청 날씨 가운데 있는 온도들을 스크래핑해서 python을 활용해 꺽은선 그래프를 plot 해보자 1. 관련 라이브러리 import from selenium import webdriver from webdriver_manager.microsoft import EdgeChromiumDriverManager from selenium.webdriver.edge.service import Service from selenium.webdriver.common.by import By import matplotlib.pyplot as plt import seaborn as sns 2. 요소 확인 - 스크래핑하고자 하는 온도 데이터는 id = my-tchart인 class 안에 있는..

개발/웹 스크래핑 2023. 4. 21. 14:08

[Web Scraping 기초] Seaborn 기초

Seaborn - 스크래핑으로 데이터 추출만 하면 데이터가 너무 분산되어 보기가 힘들다 - 정보를 요약해서 한 눈에 보여줄 수 있는 '시각화'를 하면 완성도 잇는 결과가 나올 것이다 - Seaborn은 matplotlib을 기반으로 하는 파이썬의 데이터 시각화 라이브러리이다 1) Seaborn 설치 - Seaborn을 사용하기 위해 먼저 Seaborn 라이브러리를 설치해야한다 - pip install을 통해 간단하게 실행할 수 있다 (cmd창에 아래 코드 입력, Jupyter Notebook에선 맨 앞에 % 붙임) pip install seaborn ※ 만약 설치가 안된다면 다음 코드를 실행해보자 python -m pip install seaborn 2) Seaborn 시작하기 - seaborn을 사용하..

개발/웹 스크래핑 2023. 4. 21. 12:45

[Web Scraping 기초] Selenium으로 웹브라우저 자동화하기

Selenium 라이브러리 - selenium은 Python을 이용해서 웹 어플리케이션 자동화 및 테스트를 위한 포터블 프레임워크이다 1) selenium 및 webdriver 설치 - selenium을 사용하기 위해 먼저 selenium 프레임워크를 설치해야한다 - pip install을 통해 간단하게 실행할 수 있다 (cmd창에 아래 코드 입력, Jupyter Notebook에선 맨 앞에 % 붙임) - webdriver는 사용자를 대신해서 웹 브라우저를 움직이도록 하는 모듈이다 - selenium 4.0 이전 까지는 필요에 따라 각각의 웹 드라이버를 따로 설치해야 했으나(Chrome 사용 시 Chrome webdriver 를 설치) selenium 4.0 부터는 'webdriver-manager'만 ..

개발/웹 스크래핑 2023. 4. 20. 17:18

[Web Scraping 기초] BeautifulSoup을 이용한 웹 스크래핑

1) BeautifulSoup으로 원하는 요소 추출하기 - 다음 사이트에 있는 책들의 이름 정보를 스크래핑 해보자 http://books.toscrape.com/catalogue/category/books/travel_2/index.html Travel | Books to Scrape - Sandbox £44.34 In stock books.toscrape.com - 해당 웹 페이지는 임의의 책 정보가 담긴 웹 사이트이다. - 스크래핑을 하기 위해선 특정 웹 페이지 전체에 어디 있는지 알아야 한다 - 그러기 위해선 전체 HTML을 분석할 줄 알아야 하는데, 이것을 돕는 도구가 웹브라우저의 '개발자 도구' 이다 - 알고싶은 곳에 커서를 두고 우클릭 후 검사 를 누르면 된다. - 개발자 도구를통해 요소를 확..

개발/웹 스크래핑 2023. 4. 19. 15:05

[Web Scraping 기초] BeautifulSoup

1) BeautifulSoup 라이브러리 - 스크래핑 하고자 하는 사이트에 get 요청을 보내서 받은 문서에서 .body를 할 경우 길고 정리되지 않은 텍스트로 인해 분석하기 힘들어 진다 - HTML, XML 등 긴 텍스트를 분석할 수 있도록 Parser를 사용할 수 있게 해주는 Python 패키지가 BeautifulSoup이다 - pip install을 통해 간단하게 실행할 수 있다 (cmd창에 아래 코드 입력, Jupyter Notebook에선 맨 앞에 % 붙임) pip install bs4 2) BeatifulSoup 객체 만들기 - https://www.example.com 사이트에 get 요청을 보내 응답을 받아 requests 객체를 생성하고 이 객체를 활용하여 get요청으로 받은 문서를 Be..

개발/웹 스크래핑 2023. 4. 19. 13:36

[Web Scraping 기초] HTTP - 윤리적으로 웹 스크래핑/크롤링 진행하기

1) 웹 크롤링과 웹스크래핑 - 웹 스크래핑 : 특정한 목적으로 특저어 웹 페이지에서 데이터를 추출하는 것 - 데이터 추출 - 웹 크롤링 : URL을 타고다니며 반복적으로 데이터를 가져오는 과정(인덱싱) - 데이터 색인 2) 올바르게 HTTP 요청하기 ① HTTP를 올바르게 요청하게 위해 교려해야 할 것들 - 웹 스크레핑/크롤링으르 통해 "어떤 목적"을 달성하고자 하는가? → 웹 스크래핑/크롤링 시 상업적으로 사용할 경우 저작권에 침해하는 것이 없는지 확인해야 한다 - 무분별한 요청은 사이버 공격과 다름 없기 때문에 웹 스크래핑/크롤링 시 서버에 영향이 없는지 확인해봐야 한다 3) 로봇 배제 프로토콜(REP) - 웹 브라우징은 사람이 아닌 로봇이 진행할 수 있다 → 웹 스크래핑/크롤링은 로봇도 진행할 수..

개발/웹 스크래핑 2023. 4. 18. 16:20

[Web Scraping 기초] HTTP - Python을 활용하여 간단한 HTTP 요청 주고받기

1) requests 라이브러리 - Python을 이용해서 간단한 HTTP 통신을 진행할 수 있는 라이브러리 ※ requests 라이브러리 설치 - requests 라이브러리는 표준 라이브러리가 아니기 때문에 따로 설치를 진행해야 한다 - pip install을 통해 간단하게 실행할 수 있다 (cmd창에 아래 코드 입력, Jupyter Notebook에선 맨 앞에 % 붙임) pip install requests 2) Get - 정보를 달라고 요청하기 - 아래 코드는 작성자 블로그에 get 방식으로 요청한 후 결과를 보는 코드이다 - get 방식으로 요청 시 '객체'를 반환 받게되며 응답코드가 '200' 일 경우 해당 URL로 부터 정상적으로 정보를 받은것이다 #requess 라이브러리을 불러온 후, Na..

개발/웹 스크래핑 2023. 4. 18. 15:50

이전 Prev 1 2 Next 다음

목록개발/웹 스크래핑 (16)

사진과 음악을 좋아하는 개발자 지망생의 블로그

티스토리툴바