python中主函数用法
- 行业动态
- 2024-03-02
- 4582
要在互联网上获取最新内容,我们可以使用Python的requests库和BeautifulSoup库来实现,以下是一个简单的Python程序主函数,用于抓取指定网站的新闻标题和链接:
import requests from bs4 import BeautifulSoup def get_latest_news(url): # 发送请求,获取网页内容 response = requests.get(url) response.encoding = 'utf8' html_content = response.text # 使用BeautifulSoup解析网页内容 soup = BeautifulSoup(html_content, 'html.parser') # 查找新闻标题和链接 news_list = soup.find_all('div', class_='newsitem') # 遍历新闻列表,提取标题和链接 for news in news_list: title = news.find('h3').text link = news.find('a')['href'] print(f'{title}: {link}') if __name__ == '__main__': # 指定要抓取的网站URL url = 'https://www.example.com/news' get_latest_news(url)
我们需要导入requests库和BeautifulSoup库,requests库用于发送HTTP请求,获取网页内容;BeautifulSoup库用于解析网页内容,提取所需信息。
接下来,我们定义一个名为get_latest_news的函数,该函数接受一个参数url,表示要抓取的网站的URL,在函数内部,我们首先使用requests库发送GET请求,获取网页内容,我们设置响应的编码为’utf8’,以便正确处理中文字符,接着,我们使用BeautifulSoup库解析网页内容。
为了提取新闻标题和链接,我们需要找到包含这些信息的HTML元素,在这个例子中,我们假设新闻标题位于<div >标签内的<h3>标签内,新闻链接位于<a>标签内,我们使用BeautifulSoup的find_all方法查找所有符合条件的<div>标签,并将结果存储在变量news_list中。
我们遍历新闻列表,对于每个新闻元素,我们分别提取标题和链接,标题位于<h3>标签内,我们使用find方法查找该标签并获取其文本内容;链接位于<a>标签内,我们同样使用find方法查找该标签,并通过索引访问其’href’属性,我们将标题和链接打印出来。
在程序的主函数中,我们指定要抓取的网站URL(在这个例子中是https://www.example.com/news),然后调用get_latest_news函数执行抓取操作。
注意:这个例子仅适用于特定的网站结构,实际使用时需要根据目标网站的HTML结构进行相应的调整,如果目标网站使用了反爬虫技术,可能需要进一步处理,例如添加请求头、设置代理等。
本站发布或转载的文章及图片均来自网络,其原创性以及文中表达的观点和判断不代表本站,有问题联系侵删!
本文链接:http://www.xixizhuji.com/fuzhu/336725.html