利用selenium爬取天猫口红商品数据及分析

本文最后更新于388 天前，其中的信息可能已经过时，如有错误请发送邮件到g1546780487@163.com

一、前言：

因为商科比赛和爬虫大作业而生的一堆代码。大部分参考自网络，欢迎学习复用。

但是不建议直接Ctrl+A Ctrl+C Ctrl+V 然后F5运行，这样大概率也运行不出来。

懂一点点Python的可能会看的很舒服。

参考文章：

爬虫百战（5）——使用自动化工具selenium爬取淘宝数据

https://www.codenong.com/cs106028364/

利用Python爬虫爬取淘宝商品做数据挖掘分析实战篇，超详细教程

https://www.zhihu.com/tardis/bd/art/34375874?source_id=1001

二、绕过反爬：

花里胡哨的，大多不太实用，手动扫个码最简单，毕竟咱也不是非要全自动。

import matplotlib
import matplotlib.pyplot as plt
import seaborn as sns


#一、爬虫数据搜集部分
from selenium import webdriver
from selenium.webdriver.common.by import By
#from selenium.webdriver.support.wait import WebDriverWait
import pandas as pd
import numpy  as np
import time

keyword = '口红'
driver = webdriver.Chrome()
driver.get('https://s.taobao.com/search?q={}'.format(keyword))  
time.sleep(15)
print('请在15s内完成扫码')

三、获取数据

driver.find_element(By.LINK_TEXT,"天猫").click()
time.sleep(5)
driver.find_element(By.LINK_TEXT,"销量").click()
time.sleep(5)
print("关键词为口红，按销量从高到低排序，仅选择天猫商品")

def get_datas(page_num):
    data_lst = []
    for j in range(1,page_num+1):
        try:
            for i in range(1,45):
                try:
                    dic = {}
                    dic['img'] = driver.find_element_by_xpath(f'//*[@id="mainsrp-itemlist"]/div/div/div[1]/div[{i}]/div[1]/div/div[1]/a/img').get_attribute('src')
                    dic['标题'] = driver.find_element_by_xpath(f'//*[@id="mainsrp-itemlist"]/div/div/div[1]/div[{i}]/div[2]/div[2]').text
                    dic['店铺'] = driver.find_element_by_xpath(f'//*[@id="mainsrp-itemlist"]/div/div/div[1]/div[{i}]/div[2]/div[3]/div[1]/a/span[2]').text
                    dic['店家地址'] = driver.find_element_by_xpath(f'//*[@id="mainsrp-itemlist"]/div/div/div[1]/div[{i}]/div[2]/div[3]/div[2]').text
                    dic['产品售价'] = driver.find_element_by_xpath(f'//*[@id="mainsrp-itemlist"]/div/div/div[1]/div[{i}]/div[2]/div[1]/div[1]/strong').text  
                    dic['付款情况'] = driver.find_element_by_xpath(f'//*[@id="mainsrp-itemlist"]/div/div/div[1]/div[{i}]/div[2]/div[1]/div[2]').text
                    print(dic)
                    data_lst.append(dic)
                except:
                    print("数据采集失败")
            num = driver.find_element_by_xpath('//*[@id="mainsrp-pager"]/div/div/div/div[2]/input')
            num.clear()
            num.send_keys(j+1)
            driver.find_element_by_xpath('//*[@id="mainsrp-pager"]/div/div/div/div[2]/span[3]').click()
            time.sleep(5)
            print("已爬取{}页，程序休息.....{}s".format(j,5))
            time.sleep(5)
        except:
            continue
    print("一共获取{}条数据".format(len(data_lst)))
    return(data_lst)

if __name__ == '__main__':
    #driver = get_to_page('口红')
    data_lst = get_datas(5)
    #前两行是直接完成爬取淘宝中5页以口红为关键词搜索得到的商品信息数据
    data = pd.DataFrame(get_datas(5))
    data.to_excel('口红数据.xlsx',index=False)
    #后两行是把获得的数据直接存放在本地

四、数据清洗

data = pd.read_excel('数据.xlsx')
data_anal = data[['店铺','店家地址','产品售价','付款情况']]
#处理缺失值
#对销量缺失值进行处理,此处采用取下一行数据的处理方式
data_anal['付款情况'].fillna(method = 'backfill',axis=0,inplace=True)

#提取店家省份
data_anal['地址'] = data_anal['店家地址'].apply(lambda x:str(x).split()[0])
data_anal.drop('店家地址',axis=1, inplace=True)

#提取销量
data_anal['销量'] = data_anal['付款情况'].apply(lambda x:str(x).split('+')[0])
data_anal.drop('付款情况',axis=1, inplace=True)
#把销量中的万转化为数字。
sales_list = list(data_anal['销量'])
for i in range(len(sales_list)):
    sales_list[i]=str(sales_list[i])
    if sales_list[i].rfind('万') > 0:
        sales_list[i] = int(float(sales_list[i][0:sales_list[i].rfind('万')])*1e4)
    else:
        sales_list[i] = int(sales_list[i])
data_anal['销量'] = sales_list
data_anal.to_excel('清洗后数据.xlsx',index=False)

#data_anal['地址'] = data_anal['地址'].str.split(',',expand=True).replace('nan',np.nan)
#data_add_s = data_anal.dropna(axis=0).loc[:,['地址',"销量"]]
#data_add_s['地址'].value_counts().plot(kind='bar',color='steelblue')

五、数据分析——词云

#data_anal.dtypes
#3.1利用jieba 进行标题词云分析
#为jieba字典加入新词

import jieba
from PIL import Image
from wordcloud import WordCloud

jieba.add_word("唇釉")
jieba.add_word("唇泥")
jieba.add_word("唇露")
jieba.add_word("珂拉琪")
jieba.add_word("水雾")
jieba.add_word("水雾面")
jieba.add_word("哑光")
jieba.add_word("学生党")
jieba.add_word("防水")
jieba.add_word("小众")
jieba.add_word("水光")

title_list = list(data['标题'])
title_s = []
for line in title_list:
    title_cut = jieba.lcut(line)
    title_s.append(title_cut)

#导入停用词表
stopwords = pd.read_excel('stopwords.xlsx')
stopwords = stopwords.stopwords.values.tolist()

#剔除停用词
title_clean = []
for line in title_s:
    line_clean = []
    for word in line:
        if word not in stopwords:
            line_clean.append(word)
    title_clean.append(line_clean)

#对每个list中的元素进行去重
title_clean_dist= []
for line in title_clean:
    line_dist = []
    for word in line:
        if word not in line_dist:
            line_dist.append(word)
    title_clean_dist.append(line_dist)

    
#将 title_clean_dist 转化为一个单独单词的list: allwords_clean_dist
#并转化为数据框,同时删除空字符串
allwords_clean_dist = []
for line in title_clean_dist:
    for word in line:
        allwords_clean_dist.append(word)
df_allwords_clean_dist = pd.DataFrame({'allwords':allwords_clean_dist})
df_allwords_clean_dist = df_allwords_clean_dist.applymap(lambda x: np.where(x!=' ', x,None)).dropna()


#对最终过滤去重的词语进行分类汇总 
word_count = df_allwords_clean_dist.allwords.value_counts().reset_index()
word_count.columns = ['word','count']
word_count = word_count[:80]
word_count.to_excel('关键词词频.xlsx',index=False)
word_count = pd.read_excel('关键词词频.xlsx',sheet_name=0,engine='openpyxl')
word_count_dict = word_count.set_index('word')['count'].to_dict()
#word_count_dict.pop('pinkbear')

#对标题进行词云绘制
font = r"C:\Windows\Fonts\simfang.ttf"
#plt.figure(figsize = (200,100))
mask = np.array(Image.open("ALICE2.png"))
w_c = WordCloud(font_path="simhei.ttf",
                background_color="white",collocations=False,
                width = 800,height = 600,max_words = 200,scale = 2,
                contour_width = 4,contour_color = 'steelblue',
                max_font_size =80,mask=mask)
wc =w_c.generate_from_frequencies(word_count_dict)
wc.to_file('关键词词频词云图.png')

六、数据分析—— 不同关键词对应销量之和的统计分析

w_s_sum = []
word_count = df_allwords_clean_dist.allwords.value_counts().reset_index()
word_count.columns = ['word','count']
for w in word_count.word:
    i = 0
    s_list = []
    for t in title_clean_dist:
        if w in t:
            s_list.append(data_anal['销量'][i])
        i+=1
    w_s_sum.append(sum(s_list))
df_w_s_sum = pd.DataFrame({'w_s_sum':w_s_sum})
df_word_sum =pd.concat([word_count,df_w_s_sum],axis=1,ignore_index = True)
df_word_sum.columns = ['word','count','w_s_sum']

#取销量最高的30行关键词
df_word_sum.sort_values('w_s_sum',inplace =True,ascending= True)
df_w_s = df_word_sum.tail(30)

#绘图
font = {'family':'SimHei'}
matplotlib.rc('font',**font)

index = np.arange(df_w_s.word.size)
plt.figure(figsize=(6,12),dpi=100)
plt.barh(index,df_w_s.w_s_sum,color='steelblue',align='center',alpha=0.8)
plt.yticks(index,df_w_s.word,fontsize=12)
plt.title('关键词 & 口红销量统计',fontsize=15)
#添加数据标签
for y,x in zip(index,df_w_s.w_s_sum):
    plt.text(x,y,'%.0f' %x ,ha='left',va='center',fontsize=12)
plt.savefig('关键词 & 口红销量统计.png')

七、数据分析—— 不同店铺对应销量之和的统计分析

df_c_s_sum = data_anal.loc[:,['店铺',"销量"]]
df_c_s_sum = df_c_s_sum.groupby('店铺').sum()                    #相同店铺销量相加
df_c_s_sum = df_c_s_sum.sort_values(by=['销量'],ascending=True) #按降序排序
df_c_s = df_c_s_sum.tail(12)  #取销量排行前12

#绘图
font = {'family':'SimHei'}
matplotlib.rc('font',**font)

index = np.arange(df_c_s.size)
plt.figure(figsize=(18,12),dpi=100)
plt.barh(index,df_c_s['销量'],color='steelblue',align='center',alpha=0.8)
plt.yticks(index,df_c_s.index,fontsize=12)
plt.title('店铺 & 口红销量统计',fontsize=15)
#添加数据标签
for y,x in zip(index,df_c_s['销量']):
    plt.text(x,y,'%.0f' %x ,ha='left',va='center',fontsize=12)
plt.savefig('店铺 & 口红销量统计.png')

八、数据分析—— 不同价格对应的店铺数量分布

#data_p =  data_anal[data_anal['产品售价']<600]
data_p =  data_anal['产品售价'].to_frame()
plt.figure(figsize=(7,5),dpi=100)
plt.hist(data_p['产品售价'],bins=40,color='steelblue')
plt.xlabel('价格',fontsize = 12)
plt.xticks(np.arange(0,1100, step=100))
plt.ylabel('店铺数量',fontsize = 12)
plt.title('不同价格对应的店铺数量分布',fontsize = 15)
plt.savefig('不同价格对应的店铺数量分布.png')

九、数据分析—— 不同价格区间口红的平均销量

data_anal['产品售价'] = data_anal['产品售价'].astype('int')
#把价格区间分为12组
data_anal['group'] = pd.qcut(data_anal['产品售价'],12)
df_group = data_anal.group.value_counts().reset_index()
#计算分组后每一价格区间的销量均值
df_s_g = data_anal[['销量','group']].groupby('group').mean().reset_index()

#绘制柱形图
index = np.arange(df_s_g.group.size)
plt.figure(figsize=(12,10),dpi=100)
plt.bar(index,df_s_g['销量'],color='steelblue')
plt.xticks(index,df_s_g.group,fontsize=10,rotation=45)
plt.xlabel('价格区间')
plt.ylabel('平均销量')
plt.title('不同价格区间的口红的平均销量')
plt.savefig('不同价格区间的口红的平均销量.png')

十、数据分析—— 月销量10000以下不同销量对应的口红商品数量分布

data_s = data_anal['销量'].to_frame()
data_s = data_anal[data_anal['销量']<=10000]['销量'].to_frame()
print('月销量10000及以下的商品占比:%.3f' %(len(data_s)/len(data_anal)))
plt.figure(figsize=(7,5),dpi=100)
plt.hist(data_s['销量'],bins=20,color='steelblue')
plt.xlabel('销量',fontsize = 12)
plt.ylabel('店铺数量',fontsize = 12)
plt.title('月销量10000及以下不同销量对应的商品数量分布 占比96.8%',fontsize = 15)
plt.savefig('月销量10000及以下不同销量对应的商品数量分布.png')

十一、数据分析—— 口红价格对销量的影响散点图分析

data_p =  data_anal['产品售价'].to_frame()
data_s = data_anal['销量'].to_frame()
plt.figure(figsize=(12,8),dpi=100)
plt.scatter(data_p['产品售价'],
           data_s['销量'],color='steelblue')
plt.xlabel('价格',fontsize = 12)
plt.xticks(np.arange(0,1100,step=50))
plt.ylabel('销量',fontsize = 12)
plt.title('口红价格对销量的影响散点图')
plt.savefig('口红价格对销量的影响散点图.png')


data_p_s =  data_anal[data_anal['产品售价']<500]
data_p_s = data_p_s.loc[:,['产品售价',"销量"]]
#fig,ax = plt.subplots()
plt.figure(figsize=(12,8),dpi=100)
plt.scatter(data_p_s['产品售价'],
           data_p_s['销量'],color='steelblue')
plt.xlabel('价格',fontsize = 12)
plt.xticks(np.arange(0,600,step=50))
plt.ylabel('销量',fontsize = 12)
plt.title('500元以下口红价格对销量的影响散点图')
plt.savefig('500元以下口红价格对销量的影响散点图.png')

十二、数据分析—— 口红价格对销售额的影响分析：

data_anal['销售额'] = data_anal['产品售价'] * data_anal['销量']
plt.figure(figsize=(12,8),dpi=100)
plt.xticks(np.arange(0,1100,step=50))
plt.yticks(np.arange(0,4500000,step=500000))
plt.title('口红价格对销售额的影响分析')
sns.regplot(x='产品售价',y='销售额',data=data_anal,color='steelblue')
plt.savefig('口红价格对销售额的影响分析.png')

十三、数据分析—— 不同地址的店铺数量分布：

plt.figure(figsize=(8,4),dpi=100)
data_anal['地址'] = data_anal['地址'].str.split(',',expand=True).replace('nan',np.nan)
data_add_s = data_anal.dropna(axis=0).loc[:,['地址',"销量"]]
data_add_s['地址'].value_counts().plot(kind='bar',color='steelblue')
plt.xticks(rotation=0)
plt.xlabel('地址',fontsize = 12)
plt.ylabel('数量',fontsize = 12)
plt.title('不同地址的店铺数量分布')
plt.savefig('不同地址的店铺数量分布.png')

十四、数据分析—— 不同地址的口红平均销量分布：

add_sales = data_add_s.pivot_table(index = '地址',values='销量',aggfunc=np.mean) #分类求平均
add_sales.sort_values('销量',inplace =True,ascending = False)
add_sales = add_sales.reset_index()

index = np.arange(add_sales['销量'].size)
plt.figure(figsize=(8,4),dpi=100)
plt.bar(index,add_sales['销量'],color='steelblue')
plt.xticks(index,add_sales['地址'],fontsize=12,rotation=0)
plt.xlabel('店铺地址')
plt.ylabel('平均销量')
plt.title('不同地址的口红平均销量分布')
plt.savefig('不同地址的口红平均销量分布.png')

若翎

一个任性又矫情的双子座

一、前言：

二、绕过反爬：

三、获取数据

四、数据清洗

五、数据分析——词云

六、数据分析—— 不同关键词对应销量之和的统计分析

七、数据分析—— 不同店铺对应销量之和的统计分析

八、数据分析—— 不同价格对应的店铺数量分布

九、数据分析—— 不同价格区间口红的平均销量

十、数据分析—— 月销量10000以下不同销量对应的口红商品数量分布

十一、数据分析—— 口红价格对销量的影响散点图分析

十二、数据分析—— 口红价格对销售额的影响分析：

十三、数据分析—— 不同地址的店铺数量分布：

十四、数据分析—— 不同地址的口红平均销量分布：

发送评论编辑评论

2024 年 7 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

一、前言：

二、绕过反爬：

三、获取数据

四、数据清洗

五、数据分析——词云

六、数据分析—— 不同关键词 对应 销量之和的统计分析

七、数据分析—— 不同店铺 对应 销量之和的统计分析

八、数据分析—— 不同价格对应的店铺数量分布

九、数据分析—— 不同价格区间口红的平均销量

十、数据分析—— 月销量10000以下不同销量对应的口红商品数量分布

十一、数据分析—— 口红价格对销量的影响散点图分析

十二、数据分析—— 口红价格对销售额的影响分析：

十三、数据分析—— 不同地址的店铺数量分布：

十四、数据分析—— 不同地址的口红平均销量分布：

发送评论 编辑评论

推荐文章

六、数据分析—— 不同关键词对应销量之和的统计分析

七、数据分析—— 不同店铺对应销量之和的统计分析

发送评论编辑评论