'데브코스' 태그의 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Tags more

Archives

Today

Total

관리 메뉴

목록데브코스 (22)

사진과 음악을 좋아하는 개발자 지망생의 블로그

[Web Scraping 기초] BeautifulSoup을 이용한 웹 스크래핑

1) BeautifulSoup으로 원하는 요소 추출하기 - 다음 사이트에 있는 책들의 이름 정보를 스크래핑 해보자 http://books.toscrape.com/catalogue/category/books/travel_2/index.html Travel | Books to Scrape - Sandbox £44.34 In stock books.toscrape.com - 해당 웹 페이지는 임의의 책 정보가 담긴 웹 사이트이다. - 스크래핑을 하기 위해선 특정 웹 페이지 전체에 어디 있는지 알아야 한다 - 그러기 위해선 전체 HTML을 분석할 줄 알아야 하는데, 이것을 돕는 도구가 웹브라우저의 '개발자 도구' 이다 - 알고싶은 곳에 커서를 두고 우클릭 후 검사 를 누르면 된다. - 개발자 도구를통해 요소를 확..

개발/웹 스크래핑 2023. 4. 19. 15:05

[Web Scraping 기초] BeautifulSoup

1) BeautifulSoup 라이브러리 - 스크래핑 하고자 하는 사이트에 get 요청을 보내서 받은 문서에서 .body를 할 경우 길고 정리되지 않은 텍스트로 인해 분석하기 힘들어 진다 - HTML, XML 등 긴 텍스트를 분석할 수 있도록 Parser를 사용할 수 있게 해주는 Python 패키지가 BeautifulSoup이다 - pip install을 통해 간단하게 실행할 수 있다 (cmd창에 아래 코드 입력, Jupyter Notebook에선 맨 앞에 % 붙임) pip install bs4 2) BeatifulSoup 객체 만들기 - https://www.example.com 사이트에 get 요청을 보내 응답을 받아 requests 객체를 생성하고 이 객체를 활용하여 get요청으로 받은 문서를 Be..

개발/웹 스크래핑 2023. 4. 19. 13:36

[Web Scraping 기초] HTTP - 윤리적으로 웹 스크래핑/크롤링 진행하기

1) 웹 크롤링과 웹스크래핑 - 웹 스크래핑 : 특정한 목적으로 특저어 웹 페이지에서 데이터를 추출하는 것 - 데이터 추출 - 웹 크롤링 : URL을 타고다니며 반복적으로 데이터를 가져오는 과정(인덱싱) - 데이터 색인 2) 올바르게 HTTP 요청하기 ① HTTP를 올바르게 요청하게 위해 교려해야 할 것들 - 웹 스크레핑/크롤링으르 통해 "어떤 목적"을 달성하고자 하는가? → 웹 스크래핑/크롤링 시 상업적으로 사용할 경우 저작권에 침해하는 것이 없는지 확인해야 한다 - 무분별한 요청은 사이버 공격과 다름 없기 때문에 웹 스크래핑/크롤링 시 서버에 영향이 없는지 확인해봐야 한다 3) 로봇 배제 프로토콜(REP) - 웹 브라우징은 사람이 아닌 로봇이 진행할 수 있다 → 웹 스크래핑/크롤링은 로봇도 진행할 수..

개발/웹 스크래핑 2023. 4. 18. 16:20

[Web Scraping 기초] HTTP - Python을 활용하여 간단한 HTTP 요청 주고받기

1) requests 라이브러리 - Python을 이용해서 간단한 HTTP 통신을 진행할 수 있는 라이브러리 ※ requests 라이브러리 설치 - requests 라이브러리는 표준 라이브러리가 아니기 때문에 따로 설치를 진행해야 한다 - pip install을 통해 간단하게 실행할 수 있다 (cmd창에 아래 코드 입력, Jupyter Notebook에선 맨 앞에 % 붙임) pip install requests 2) Get - 정보를 달라고 요청하기 - 아래 코드는 작성자 블로그에 get 방식으로 요청한 후 결과를 보는 코드이다 - get 방식으로 요청 시 '객체'를 반환 받게되며 응답코드가 '200' 일 경우 해당 URL로 부터 정상적으로 정보를 받은것이다 #requess 라이브러리을 불러온 후, Na..

개발/웹 스크래핑 2023. 4. 18. 15:50

[Web Scraping 기초] HTTP - Requests

1) 웹 사이트와 웹 페이지 - 웹 화면에 보이는 것 = 웹 속에 있는 문서 하나 → 웹 페이지 - 관련된 웹 페이지의 묶음 → 웹 사이트 2) 웹 페이지는 어떻게 만들어질까? - 웹 페이지는 수 많은 코드로 이뤄짐 - 이 코드들은 클라이언트의 요청에 의해 서버로 부터 받아온 HTTP 응답의 Body임 - 서버와 클라이언트 간 소통 중간에서 웹 브라우저는 HTTP 형식으로 서버에서 클라이언트로 html 요청을 보내고 응답으로 받아 온 html 문서를 우리가 보기 쉬운 형태로 화면에 그려주는(렌더링하는) 역활을 함 3) HTML → 아래 게시글 참고 2023.04.17 - [데이터 엔지니어링 데브코스/웹 크롤링] - [Web Scraping 기초] HTML 기초 ")은 선택사항이 될 수도 있고 필수사힝이 ..

개발/웹 스크래핑 2023. 4. 18. 13:55

[Web Scraping 기초] HTTP

1) 인터넷과 웹 ① 컴퓨터 - 컴퓨터가 발명된 후 사용자들은 문서작성이나 연산 작업 등을 컴퓨터에 위임하였다 - 컴퓨터를 활용해 업무를 하는 사람들이 늘어나면서 서로의 정보를 교환할 필요가 있었다 ② 네트워크 - 컴퓨터를 통한 상호간 정보 공유의 필요성을 해결하고자 서로의 컴퓨터를 연결하여 정보를 교환할 수 있는 네트워크(Network)가 탄생하였다 - 하지만, 지금처럼 컴퓨터 이용자가 기하급수적으로 증가하면서 더 많은 컴퓨터와 연결할 필요가 있었다 - 누구나 컴퓨터를 갖고 있는 시대에 이전 보다 더 많은 사람들과 정보를 공유하고자 네트워크를 형성하였고 이러한 수많은 네트워크를 묶어 근거리 지역 네트워크(Local Area Network, LAN)이 탄생하였다 ③ 인터넷, WWW - 이제 전 세계적으로..

개발/웹 스크래핑 2023. 4. 18. 12:14

[Web Scraping 기초] HTML - 양식 태그 (form, 설명과 입력, 버튼)

아이디 비밀번호 옵션선택 선택하세요 옵션1 옵션2 옵션3 옵션4 옵션5 약관에 동의합니다 1 2 3 4 안녕하세요 안녕하세요 전송 1) FORM ① - 정보를 제출하기 위한 태그 - 정보를 입력하고 선택할 수 있는 input, selectionbox, textarea 등을 가질 수 있다 - 정보를 제출하기 위한 button을 가진다 - "action"속성으로 정보가 제출되었을 때 페이지를 이동시킬 수 있다 - "method" 속성으로 정보가 제출될 대 처리 방식을 결정할 수 있다 2) 입력과 출력 ① - input, textarea, selection의 설명을 작설할 수 있는 태그 - "for" 속성을 사용하여 연결하고자 하는 태그에 "id" 속성을 지칭하면 label을 클릭하면 연결된 태그가 선택된다 ..

개발/웹 스크래핑 2023. 4. 17. 21:20

[Web Scraping 기초] HTML - 리스트, 표, 외부 콘텐츠(iframe)

리스트 1) , - 정렬되지 않은 목록 태그 - 기본 불릿(bullet) 형식으로 목록을 그린다 - 태그를 사용하여 목록을 구성할 수 있고 다양한 태그를 포함할 수있다 - 태그의 자식요소로는 태그만 들어와야 한다 - 하위 리스트를 만드려면 태그 안에 , 태그를 사용하면 된다 2) , - 정렬된 목록 태그 - 기본 숫자(1, 2, 3,...) 형식으로 목록을 그린다 - 태그를 사용ㅇ하여 목록을 구성할 수 있고 다양한 태그를 포함할 수 있다 - 태그의 자식요소로는 태그만 들어와야 한다 - 하위 리스트를 만드려면 태그 안에 , 태그를 사용하면 된 3) , , - 설명 목록 태그 - 태그에 사용된 단어 혹은 내용의 설명을 태그에 작성할 수 있다 - 주로 용어사전ㅇ이나 "키 - 값"이 있는 쌍의 목록을 나타낼 때..

개발/웹 스크래핑 2023. 4. 17. 20:53

이전 Prev 1 2 3 Next 다음

목록데브코스 (22)

사진과 음악을 좋아하는 개발자 지망생의 블로그

티스토리툴바