컴퓨터공학/파이썬
파이썬 beautifulsoup 파싱 문법 정리하기
imgtag
2022. 3. 11. 10:21
반응형
1. SOUP.SELECT
HTML 문서 내 특정 태그 속성들을 찾을 때 쓰입니다
결과 반환 시 논리적으로 동일한 값이 여러 개 존재해서 리스트 배열로 반환이 됩니다
TitleNames = soup.select('td.subject > div > a.deco')
타이틀명을 가져올 때 <td class="subject"> 내에 <div> 내에 <a class="deco"> 라는 값을 찾습니다
2.SOUP.SELECT 검색 결과 href, 텍스트 분리하기
결과가 반환되었으면 LIST값을 FOR문을 통해 출력을 할 경우
<a class="deco" href="https://aaa.com/13431">이세계에선 내가 주인공?</a>
이라는 값으로 출력이 되는데 href 값과 텍스트만 분리하고 싶을 때는
for TitleName in TitleNames :
print(TitleName.attrs['href'])
print(TitleName.text)
href 속성과 text 속성만 따로 분리되서 출력이 됩니다
반응형