Python爬蟲與BeautifulSoup教學：如何成為網路資料的神探？

Contents

在這個資訊氾濫的時代，能夠快速有效地從網路中擷取有用的資料是一項價值非凡的技能。而Python的BeautifulSoup則是這項技能的利器之一。通過這篇文章，你將學會如何使用BeautifulSoup來解析網頁，並將資料轉換成易於讀取的格式。無論你是對網頁資料充滿好奇的新手，還是想提升爬蟲技術的老手，這篇文章都將為你提供實用的技巧和洞見。

BeautifulSoup是什麼？

BeautifulSoup是Python中一個強大的函式庫，專門用來解析HTML和XML文件。它能將這些文件轉換成「網頁標籤樹」(tag)，讓資料讀取方式更接近網頁的結構。這不僅使得資料提取更加直觀，也能修復那些常見的未閉合標籤錯誤，因此又被稱為tag soup。想像一下，有了BeautifulSoup，你就像得到了網頁的放大鏡，能清晰地看見每一個細節！

如何安裝BeautifulSoup？

在開始之前，你需要安裝這個神奇的工具。幸運的是，安裝BeautifulSoup就像在家裡喝水一樣簡單。只需在你的命令提示字元（或終端）輸入以下命令：

1

pip install beautifulsoup4

這樣，你就為自己的Python環境增添了一個新的超能力！

以HTML標籤及屬性搜尋節點

使用BeautifulSoup的第一步就是學會如何搜尋HTML標籤及屬性。這一過程就像尋寶，你需要知道你要找的是什麼。以下是一些常見的搜尋方法：

find()：用於搜尋第一個符合條件的標籤。
find_all()：搜尋所有符合條件的標籤。

舉個例子，假設你有以下的HTML結構：

1
2
3
4
5
6
7


<html>
  <body>
    <h1>歡迎來到Python世界</h1>
    <p>這是一個段落。</p>
    <p>這是另一個段落。</p>
  </body>
</html>

你可以使用以下代碼來提取所有的段落：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16


from bs4 import BeautifulSoup

html_doc = """
<html>
  <body>
    <h1>歡迎來到Python世界</h1>
    <p>這是一個段落。</p>
    <p>這是另一個段落。</p>
  </body>
</html>
"""

soup = BeautifulSoup(html_doc, 'html.parser')
paragraphs = soup.find_all('p')
for p in paragraphs:
    print(p.get_text())

這段代碼將輸出每一個段落的文字內容。是不是很方便？

以CSS屬性搜尋節點

有時，僅僅依靠標籤還不足以找到你想要的內容。這時候，CSS屬性就派上用場了。你可以使用CSS選擇器來進一步精確搜尋。

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14


# 假設我們有以下HTML結構
html_doc = """
<html>
  <body>
    <p class="content">這是一個內容段落。</p>
    <p class="footer">這是一個頁腳段落。</p>
  </body>
</html>
"""

# 使用CSS屬性搜尋
soup = BeautifulSoup(html_doc, 'html.parser')
content_paragraph = soup.select('p.content')
print(content_paragraph[0].get_text())

這段代碼將精確提取含有class="content"的段落。使用CSS屬性搜尋就像是用雷達鎖定目標，讓資料提取變得輕而易舉。

搜尋父節點

有時候，你需要的不僅僅是子節點的資料，而是需要從上下文中理解資料的結構。在這種情況下，搜尋父節點非常有用。

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15


html_doc = """
<html>
  <body>
    <div>
      <h1>這是標題</h1>
      <p>這是段落。</p>
    </div>
  </body>
</html>
"""

soup = BeautifulSoup(html_doc, 'html.parser')
paragraph = soup.find('p')
parent = paragraph.find_parent()
print(parent.get_text())

這段代碼將輸出包含段落的整個div內容，是不是很神奇？

載入頁面並透過BeautifulSoup解析

要開始使用BeautifulSoup解析網頁，你首先需要載入該網頁。這可以使用Python的Requests套件來完成，它就像一個郵差，能準確無誤地為你取回網頁資料。

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11


import requests
from bs4 import BeautifulSoup

# Step 1: 使用Requests套件的get()方法，載入指定網頁的HTML結構
url = "http://example.com"
response = requests.get(url)

# Step 2: 採用BeautifulSoup裡的解析器來解析HTML
soup = BeautifulSoup(response.text, 'html.parser')

print(soup.prettify())

這樣的設計不僅能讓你輕鬆獲取網頁資料，還能讓你以美麗的格式來檢視它們。美麗湯的名字也確實名副其實。

範例應用：爬取PTT八卦版

為了讓大家更好地理解如何將這些技巧應用於實際，我們以爬取PTT八卦版為例。

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17


import requests
from bs4 import BeautifulSoup

# 指定PPT八卦版的URL
url = "https://www.ptt.cc/bbs/Gossiping/index.html"

# 取得網頁內容
response = requests.get(url, cookies={'over18': '1'})  # 設定cookie以繞過年齡限制

# 解析網頁內容
soup = BeautifulSoup(response.text, 'html.parser')

# 提取文章標題
titles = soup.find_all('div', class_='title')
for title in titles:
    if title.a:
        print(title.a.get_text())

這段代碼將抓取PTT八卦版的所有文章標題。透過這樣的實用應用，你將能夠解鎖更多網頁資料，成為真正的資料神探！

常見問題解答

BeautifulSoup能解析動態網頁嗎？

BeautifulSoup主要用於解析靜態網頁。對於動態頁面，你可能需要結合Selenium等其他工具。

在哪裡可以找到BeautifulSoup的官方文檔？

你可以在BeautifulSoup官方網站找到詳細的文檔和使用指南。

如何處理網頁中的錯誤標籤？

BeautifulSoup能夠修復大多數未閉合的標籤，讓解析過程更順利。

BeautifulSoup與Selenium有何不同？

BeautifulSoup專注於解析靜態HTML，而Selenium則能處理動態JavaScript頁面。

如何提高爬蟲效率？

可以通過多線程或異步請求來提升爬蟲速度。

有沒有推薦的Python爬蟲框架？

除了BeautifulSoup，Scrapy也是一個功能強大的爬蟲框架。

結論

透過這篇文章，我們深入探討了如何使用Python的BeautifulSoup來開發網頁爬蟲。從安裝、基本操作到實際應用，我們希望你能夠掌握這項技能，成為網路資料的神探！不論是尋找資料還是分析網頁結構，BeautifulSoup都能成為你的得力助手。那麼，現在就動手試試吧！