Pythonで、HTMLから画像(imgタグ)に設定されたURLの一覧を取得するコードを備忘録的に投稿しておきます。
画像URLの一覧を取得する
PythonでHTMLから特定のタグを抽出するには[BeautifulSoup]を利用すると簡単にできます。
作成した関数がこんな感じ。
def getLink(_url, _find):
# HTMLを取得
_response = requests.get(_url)
if _response.status_code != 200:
print(f"取得失敗: {_response.status_code}")
exit()
_html = _response.text
# BeautifulSoupで解析
_soup = BeautifulSoup(_html, "html.parser")
_links = []
for _htmltag in _soup.find_all("a", href=True):
_href = _htmltag["href"]
if _find in _href:
# 相対URLを絶対URLに変換
_full_url = urljoin(_url, _href)
_links.append(_full_url)
return _links
実行すると引数で受け渡したURLとタグの名前から一覧が取得されます。
まとめ
今回は短い記事ですが、Pythonで指定したURLのHTML内で指定したタグの一覧を抽出するコードついて書きました。
HTMLから画像などの特定のタグを抽出を考えている人の参考になれば幸いです。
スポンサーリンク
最後までご覧いただき、ありがとうございます。
