BeautifulSoupメモ Python活用 | 夫の家計管理術

冒頭文だけ少し書きます。

Webスクレイピングの勉強中に出会ったパッケージです。

日本語での情報が少ないので、日本語で活用方法を備忘録的に残しておきたいがために書いています。

■BeautifulSoup
HTMLを解析して扱いやすくしてくれるモジュールです。
公式リンクhttps://www.crummy.com/software/BeautifulSoup/bs4/doc/

例：こんな感じで使う

これはhttps://news.ycombinator.com/ (ニュースサイト)で表示される30個の記事の中から最も評価の高い記事のタイトルとリンクを表示するプログラムです。

from bs4 import BeautifulSoup
import requests

response = requests.get("https://news.ycombinator.com/")
yc_response = response.text
soup = BeautifulSoup(yc_response,"html.parser") #html.parserはコンテンツがhtmlであることをpythonに宣言する役割
article = soup.find_all(name="a", class_="titlelink")
article_texts = [] #text(title)を格納
article_links = [] #linkを格納
 
for article_tag in article:
    text = article_tag.getText() #テキストを取得する
    article_texts.append(text) #テキストをリストに追加する
    link = article_tag.get("href") #リンクを取得する
    article_links.append(link) #リンクをリストに追加する
article_upvote = [int(score.getText().split()[0]) for score in soup.find_all(name="span", class_="score")]
 
largest_number = max(article_upvote)
 
largest_index = article_upvote.index(largest_number)
print(article_texts[largest_index])
print(article_links[largest_index])

■コンテンツを取得する
■要素毎に一番初めに出てくるものを取得する(a,li,p など
■find・ID指定で要素を取り出す
■find_all・一番初め以外のものも取得したい場合
■select・マッチする項目をすべて表示
■select_one・マッチした項目の１番最初だけ表示
■スクレイピングは節度を守るように
■スクレイピングをできないようにするには

■コンテンツを取得する

上記例より引用。対象となるwebページを取得し、変数に格納、BeautifulSoupに投げる

import requests
response = requests.get("https://news.ycombinator.com/")
response_text = response.text
soup = BeautifulSoup(response_text, "html.parser") #html.parserはコンテンツがhtmlであることをpythonに宣言する役割

・ローカルに保存してあるhtmlファイルを開くなら以下のように

公式にはencodingは指定されていないけど、日本語のページなら必要

with open("website.html", encoding="utf-8", mode="r") as file:
	contents = file.read()
soup = BeautifulSoup(contents, "html.parser")

■要素毎に一番初めに出てくるものを取得する(a,li,p など

print(soup) #取得したHTML全体が表示される
print(soup.prettify()) #取得したHTML全体が[* インデントを含めて]表示される

print(soup.title) #一番初めにある<title>~~~~~~~~~~~</title>全部表示される
print(soup.title.name) #titleと表示される
print(soup.title.parent.name) #headと表示される　※一番初めのタイトルはほとんどの場合headの配下にあるため。
print(soup.title.string) #タイトルテキストが表示される

titleとはchromeでいうところの上部のタブのところ

print(soup.a) #一番初めにあるアンカータグ<a>~~~</a>が表示される
print(soup.li) #一番初めにあるリスト<li>~~~</li>の項目が表示される
print(soup.p) #一番初めにあるパラグラフ<p>~~~</p>が表示される

■find・ID指定で要素を取り出す

()内のクエリにマッチする1番初めの要素を取り出す

heading = soup.find(name="h1", id="name")

・classを使って取り出す要素を指定する

class_はPythonの予約語出ないことを示すため_が必要

section_heading = soup.find(name="h3", class_"heading")
print(section_heading.get("class")) #一応クラス名の取得もできる　["heading"］のように表示される

・例：inputに含まれる属性変数を取り出す

(HTML)<input type = "text" name= "q" maxlength="255" value="">

のようなHTMLがあり、maxlengthの内容を取得したいとする。

from_tag = soup.find("input")
max_length = from_tag("maxlength") #255が取得できる

■find_all・一番初め以外のものも取得したい場合

all_anchor_tags = soup.find_all(name="a") # list形式ですべてのアンカー(a)要素を取得
for tag in all_anchor_tags:
    print(tag.getText()) #テキストだけ表示
    print(tag.get("href")) #アンカータグのリンクを表示

■select・マッチする項目をすべて表示

print(soup.select("title")) #titleを表示　[<title>～～～</title>]

■select_one・マッチした項目の１番最初だけ表示

company_url = select_one(serection="p a")
#上記例だと、HTML内の<p>~<a>~</a>~</p>のようにParagraphの中にAnchorが含まれている要素を取り出すことができる。

・CSSのIDを指定するなら

name = soup.select_one(serection = "#name") ##id名

活用例として、膨大な情報が含まれているwebページの場合、セクションごと(要するにごと)にidが含まれていることが多いため、対象のdivの内側だけを対象にする時に使用する。

・CSSのclassを指定するなら

heading = soup.select(".heading") /.クラス名

■スクレイピングは節度を守るように

・robots.txt https://developers.google.com/search/docs/advanced/robots/intro?hl=ja

robots.txtはクローラ（情報収集のために動いているプログラムなど）に対して過負荷を避けるために使用されます。

このブログにも設定されているようです

https://rbelgblog.com/robots.txt

このように末尾に”/robot.txt”を入力すると以下のような内容が表示されます。

User-agent: *
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-admin/

Sitemap: https://rbelgblog.com/sitemap.xml
Sitemap: https://rbelgblog.com/sitemap.rss


Sitemap: https://rbelgblog.com/sitemap.xml

意外と参考になりませんね・・・とりあえず、許可されているものと、禁止されているものが設定されているページと認識ください。

冒頭の例で挙げたサイトにも設定されているようなので少し見ると