-
Notifications
You must be signed in to change notification settings - Fork 0
/
remove.py
35 lines (29 loc) · 1.07 KB
/
remove.py
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
# parser.py
import requests
from bs4 import BeautifulSoup as bs
import time
from multiprocessing import Pool # Pool import하기
def get_links(): # 블로그의 게시글 링크들을 가져옵니다.
req = requests.get('https://beomi.github.io/beomi.github.io_old/')
html = req.text
soup = bs(html, 'html.parser')
my_titles = soup.select(
'h3 > a'
)
data = []
for title in my_titles:
data.append(title.get('href'))
return data
def get_content(link):
abs_link = 'https://beomi.github.io'+link
req = requests.get(abs_link)
html = req.text
soup = bs(html, 'html.parser')
# 가져온 데이터로 뭔가 할 수 있겠죠?
# 하지만 일단 여기서는 시간만 확인해봅시다.
print(soup.select('h1')[0].text) # 첫 h1 태그를 봅시다.
if __name__=='__main__':
start_time = time.time()
pool = Pool(processes=4) # 4개의 프로세스를 사용합니다.
pool.map(get_content, get_links()) # get_contetn 함수를 넣어줍시다.
print("--- %s seconds ---" % (time.time() - start_time))