爬取《青春有你2》信息没有输出结果,求指教!
久泰田田 发布于2021-02-10 浏览:622 回复:19
0
收藏

模仿老师的程序进行了《青春有你2》信息爬取,结果没有任何输出信息,请求大神指点!程序中只改过User-Agent部分

import json
import re
import requests
import datetime
from bs4 import BeautifulSoup
today  = datetime.date.today().strftime('%Y%m%d')
def crawl_wiki_data():
    """
        爬取百度百科中《青春有你2》中参赛选手信息,返回html
        """
    headers = {
        'User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.87 Safari/537.36 SE 2.X MetaSr 1.0'
        }
    url = 'https://baike.baidu.com/item/青春有你第二季'
    #URL是指统一资源定位符。统一资源定位符是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。互联网上的每个文           件都有一个唯一的URL,它包含的信息指出文件的位置以及浏览器应该怎么处理它。

    try:
        repsonse = requests.get(url,headers=headers)
        print(response.status_code)
        #将一段文档传入BeautifulSoup的构造方法,就能得到一个文档的对象, 可以传入一段字符串
        soup = BeautifulSoup(response.text,'lxml')
        #返回的是class为table-view log-set-param的





























                #籍贯
        star["zone"] = all_tds[1].text
        #星座
        star["constellation"] = all_tds[2].text
        #身高
        star["height"] = all_tds[3].text
        #体重
        star["weight"] = all_tds[4].text
        #花语,去除掉花语中的单引号或双引号
        flower_word = all_tds[5].text
        for c in flower_word:
            if c in error_list:
                flower_word = flower_word.replace(c,'')
        star["flower_word"] = flower_word
        #公司
        if not all_tds[6].find('a') is None:
            star["company"] = all_tds[6].find('a').text
        else:
            star["company"] = all_tds[6].text
        stars.append(star)
    json_data = json.loads(str(stars).replace("\'","\""))
    with open('work/' + today + '.json','w',encoding='UTF-8') as f:
        json.dump(json_data,f,ensure_ascii=False)  #以中文方式存储json
def crawl_pic_urls():
    '''
    爬取每个选手的百度百科图片,并保存
    '''
    # 读取选手的信息
    with open('work/'+ today + '.json', 'r', encoding='UTF-8') as file:
        json_array = json.loads(file.read())
    headers = {
        'User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.87 Safari/537.36 SE 2.X MetaSr 1.0'
        }
    for star in json_array:
        pic_urls = []
        name = star['name']
        link = star['link']
         #!!!请在以下完成对每个选手图片的爬取,将所有图片url存储在一个列表pic_urls中!!!
        response = requests.get(link, headers=headers)
        print(response.status_code)
        soup = BeautifulSoup(response.text, 'lxml')  # 获取每个选手百度百科的网页的html

        pic = soup.find('div', {'class': 'summary-pic'})  # 找到图片的信息
        img = pic.find('img')
        # print(img)
        pic_url = img['src']
        print(pic_url)
        pic_urls.append(pic_url)
        #!!!根据图片链接列表pic_urls, 下载所有图片,保存在以name命名的文件夹中!!!
        down_pic(name,pic_urls)
def down_pic(name,pic_urls):
    '''
        根据图片链接列表pic_urls, 下载所有图片,保存在以name命名的文件夹中,
        '''
    path = 'work/'+'pics/'+name+'/'
    # path_test = 'work/'+'pics/test'
    if not os.path.exists(path):
         os.makedirs(path)
    for i, pic_url in enumerate(pic_urls):
        try:
            pic = requests.get(pic_url, timeout=15)
            string = str(i + 1) + '.jpg'
            with open(path+string, 'wb') as f:
                f.write(pic.content)
                print('成功下载第%s张图片: %s' % (str(i + 1), str(pic_url)))
        except Exception as e:
            print('下载第%s张图片时失败: %s' % (str(i + 1), str(pic_url)))
            print(e)
            continue
def show_pic_path(path):
    '''
        遍历所爬取的每张图片,并打印所有图片的绝对路径
        '''
    pic_num = 0
    for (dirpath,dirnames,filenames) in os.walk(path):
        for filename in filenames:
            pic_num += 1
            print("第%d张照片:%s" % (pic_num,os.path.join(dirpath,filename)))
    print("共爬取《青春有你2》选手的%d照片" % pic_num)

 

所有标签        tables = soup.find_all('table',{'class':'table-view log-set-param'})        crawl_table_title = "参赛学员"        #根据“参赛学员”这个title来区分要截取的代码        for table in tables:            #对当前“参赛学员”节点前面的标签和字符串进行查找            table_titles = table.find_previous('div').find_all('h3')            for title in table_titles:                if(crawl_table_title in title):                    return table    except Exception as e:        print(e)def parse_wiki_data(table_html):    '''        从百度百科返回的html中解析得到选手信息,以当前日期作为文件名,存JSON文件,保存到work目录下        '''    bs = BeautifulSoup(str(table_html),'lxml')    all_trs = bs.find_all('tr')    #'tr'来源于右键浏览器页面,点击审查元素,出现的网页代码中的HTML 标签。它包含一个或多个th或td元素    error_list = ['\'','\"']  #花语,去除掉花语中的单引号或双引号    stars = []    for tr in all_trs[1:]:  #去掉all_trs[0]中的姓名、国家等标题内容        all_tds = tr.find_all('td')        star = {}        #姓名        star["name"] = all_tds[0].text        #个人百度百科链接        star["link"] = 'https://baike.baidu.com' + all_tds[0].find('a').get('href')#姓名下面的元素
收藏
点赞
0
个赞
共19条回复 最后由kn怪盗基德回复于2021-09-04
#20kn怪盗基德回复于2021-09-04
#19 回复
怎么更改的?我的还是爬不到数据,下面的报错 encoding with 'idna' codec failed (UnicodeError: label empty or too long)
展开

没有改成功,还是有点问题。这两天有点事耽搁了,有空马上修复

0
#19回复于2021-09-04
#17 kn怪盗基德回复
看到了,给我30分钟,马上修改

怎么更改的?我的还是爬不到数据,下面的报错


encoding with 'idna' codec failed (UnicodeError: label empty or too long)

0
#18回复于2021-09-04
#17 kn怪盗基德回复
看到了,给我30分钟,马上修改

怎么更改的?我的还是爬不到数据,下面的报错


encoding with 'idna' codec failed (UnicodeError: label empty or too long)

0
#17kn怪盗基德回复于2021-08-10
#16 kn怪盗基德回复
我早上跑了已经好了啊

看到了,给我30分钟,马上修改

0
#16kn怪盗基德回复于2021-08-10
#15 回复
大神,您好,还是爬不到内容。百度百科的网页元素已经改变了,原来的table已经变更了,需要修改table才能爬取。麻烦了,请问能再修改一下吗?
展开

我早上跑了已经好了啊

0
#15回复于2021-08-10
#3 kn怪盗基德回复
你看看是什么地方的问题,可以多加几个print然后测试一下 可以参考https://aistudio.baidu.com/aistudio/projectdetail/1526959
展开

大神,您好,还是爬不到内容。百度百科的网页元素已经改变了,原来的table已经变更了,需要修改table才能爬取。麻烦了,请问能再修改一下吗?

0
#14回复于2021-08-10
#11 kn怪盗基德回复
已经更新新版本

大神,您好,还是爬不到内容。百度百科的网页元素已经改变了,原来的table已经变更了,需要修改table才能爬取。麻烦了,请问能再修改一下吗?

0
#13回复于2021-08-10
#7 kn怪盗基德回复
看了一下你这个代码应该是bs4的匹配要结合网页数据和bs4的内容进行查看 bs4资料:https://blog.csdn.net/weixin_45623093/article/details/105628483 《青春有你2》数据爬取与分析:https://aistudio.baidu.com/aistudio/projectdetail/1526959 还有下次有问题记得截图说明,这样子方便解答。某一部分不容易看
展开

大神,您好,还是爬不到内容。百度百科的网页元素已经改变了,原来的

已经变更了,需要修改

才能爬取。麻烦了,请问能再修改一下吗?
0
#12回复于2021-08-10

感谢感谢,非常感谢!

0
#11kn怪盗基德回复于2021-08-10
#10 kn怪盗基德回复
前两天刚刚更新过哎,我看一下你一个小时以后试就行。

已经更新新版本

0
#10kn怪盗基德回复于2021-08-10
#9 回复
大神你好,能更新一下代码吗?现在网页变了,爬不到任何内容。辛苦了!  
展开

前两天刚刚更新过哎,我看一下你一个小时以后试就行。

0
#9回复于2021-08-10
#7 kn怪盗基德回复
看了一下你这个代码应该是bs4的匹配要结合网页数据和bs4的内容进行查看 bs4资料:https://blog.csdn.net/weixin_45623093/article/details/105628483 《青春有你2》数据爬取与分析:https://aistudio.baidu.com/aistudio/projectdetail/1526959 还有下次有问题记得截图说明,这样子方便解答。某一部分不容易看
展开

大神你好,能更新一下代码吗?现在网页变了,爬不到任何内容。辛苦了!

 

0
#8七年期限回复于2021-02-26
#2 doubi渣渣回复
排版乱了……建议写成个AI Studio项目,把链接发出来

+1

0
#7kn怪盗基德回复于2021-02-25
#5 成才不自在回复
pic = soup.find('div', {'class': 'summary-pic'})  # 找到图片的信息 打印一下,pic出来的是什么数据呢? 是不是没有爬取到数据
展开

看了一下你这个代码应该是bs4的匹配要结合网页数据和bs4的内容进行查看

bs4资料:https://blog.csdn.net/weixin_45623093/article/details/105628483

《青春有你2》数据爬取与分析:https://aistudio.baidu.com/aistudio/projectdetail/1526959

还有下次有问题记得截图说明,这样子方便解答。某一部分不容易看

0
#6JavaRoom回复于2021-02-25

耐心看看,

0
#5成才不自在回复于2021-02-24

pic = soup.find('div', {'class': 'summary-pic'})  # 找到图片的信息

打印一下,pic出来的是什么数据呢?

是不是没有爬取到数据

0
#4JavaRoom回复于2021-02-13

放链接

0
#3kn怪盗基德回复于2021-02-12

你看看是什么地方的问题,可以多加几个print然后测试一下

可以参考https://aistudio.baidu.com/aistudio/projectdetail/1526959

0
#2doubi渣渣回复于2021-02-11

排版乱了……建议写成个AI Studio项目,把链接发出来

0
快速回复
TOP
切换版块