在数据采集和内容整理过程中,将网页内容自动转换为 Markdown 格式是一种高效的做法。Markdown 语法简洁、可读性强,非常适合用于笔记、文档生成或静态网站构建。
相比直接保存 HTML 或 PDF,Markdown 具有以下优势:
典型的流程包括:
import requests
from bs4 import BeautifulSoup
import markdownify
url = "https://example.com/article"
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
# 假设正文在 <article> 标签内
content = soup.find('article')
md = markdownify.markdownify(str(content), heading_style="ATX")
with open("output.md", "w", encoding="utf-8") as f:
f.write(md)
其中 markdownify 是一个常用库,可将 HTML 自动转为 Markdown。
请遵守目标网站的 robots.txt 协议,合理设置请求频率,避免对服务器造成压力。商业用途请确保获得授权。