Snowing-ST
diff --git a/‎analysis.py
Lines changed: 200 additions & 0 deletions b/‎analysis.py
Lines changed: 200 additions & 0 deletions
diff --git a/‎crawl_shixiseng.py
Lines changed: 112 additions & 0 deletions b/‎crawl_shixiseng.py
Lines changed: 112 additions & 0 deletions
diff --git a/‎salary_and_skill.png
72.5 KB b/‎salary_and_skill.png
72.5 KB
diff --git a/‎tagxedo.png
1.21 MB b/‎tagxedo.png
1.21 MB
@@ -0,0 +1,200 @@
+# -*- coding: utf-8 -*-
+"""
+Created on Fri Jun 29 20:30:12 2018
+
+@author: situ
+"""
+
+import numpy as np
+import pandas as pd
+import os
+import re
+
+#os.chdir("E:/graduate/class/EDA/final")
+os.chdir("/Users/situ/Documents/EDA/final")
+data = pd.read_csv("data_with_skill.csv",encoding = "gbk")
+data.head()
+data.info()
+
+data.drop(["jobname","jobgood","url","city"],axis = 1,inplace = True)
+#数值型数据处理----------------------
+#每周工作天数
+data.jobway.unique()
+mapping = {}
+for i in range(2,7):
+    mapping[str(i) + '天／周'] = i
+print(mapping)
+data['day_per_week'] = data['jobway'].map(mapping)
+data['day_per_week'].head()
+
+
+#公司规模
+data["size"].unique()
+data["comp_size"] = ""
+data["comp_size"][data['size'] == '少于15人'] = '小型企业'
+data["comp_size"][data['size'] == '15-50人'] = '小型企业'
+data["comp_size"][data['size'] == '50-150人'] = '中型企业'
+data["comp_size"][data['size'] == '150-500人'] = '中型企业'
+data["comp_size"][data['size'] == '500-2000人'] = '大型企业'
+data["comp_size"][data['size'] == '2000人以上'] = '大型企业'
+
+#实习月数
+data.month.unique()
+mapping = {}
+for i in range(1,22):
+    mapping["实习"+str(i) + '个月'] = i
+print(mapping)
+data['time_span'] = data['month'].map(mapping)
+data['time_span'].apply(lambda f:int(f))
+
+#每天工资
+def get_mean_salary(s):
+    return np.mean([int(i) for i in s[:(len(s)-2)].split("-")])
+data['average_wage'] = data['salary'].apply(lambda s:get_mean_salary(s))
+data['average_wage'].head()
+
+data.drop(['jobway','size','month','salary'], axis = 1,inplace=True)
+
+#字符型数据处理--------------------------------
+#（城市）处理
+#北京、上海、杭州、深圳、广州
+
+def get_less_dummies(data,feature,useful_classes,prefix):
+    useful_classes_prefix = [prefix+"_"+token for token in useful_classes]
+    dum = pd.get_dummies(data[feature],prefix=prefix).ix[:,useful_classes_prefix]
+    if sum(np.sum(dum.isnull()))>0:
+        dum = dum.fillna(0)
+    search_index = np.where(np.sum(dum,axis=1)==0)[0]
+    for j in range(len(useful_classes)):
+        token = useful_classes[j]
+        for i in search_index:
+            if len(re.findall(token,data.ix[i,feature]))>0:
+                dum.ix[i,useful_classes_prefix[j]] = 1
+#    print(dum.head())
+    
+    data = pd.concat([data,dum],axis = 1)
+    return data
+
+feature = "address"
+useful_classes = ["北京","上海","杭州","深圳","广州","成都","武汉"]
+data = get_less_dummies(data,feature,useful_classes,prefix="city")
+
+#行业
+#互联网，计算机，金融，电子商务和企业服务
+ 
+
+
+feature = "industry"
+useful_classes = ["互联网","计算机","金融","电子商务","企业服务","广告","文化传媒","电子","通信"]
+data = get_less_dummies(data,feature,useful_classes,"industry")
+
+data.head()
+
+
+data.drop(['address','industry'], axis = 1,inplace=True)
+
+
+#专业要求
+def get_imp_info(data,feature,useful_classes,prefix):
+    """直接从文本中提取"""
+    useful_classes_prefix = [prefix+"_"+token for token in useful_classes]
+    dum = pd.DataFrame(np.zeros((len(data),len(useful_classes))),columns = useful_classes_prefix)
+    dum = dum.fillna(0)
+    for j in range(len(useful_classes)):
+        token = useful_classes[j]
+#        print(token)
+        for i in range(len(data)):
+#            print(i)
+            if len(re.findall(token,data.ix[i,feature].lower()))>0:
+                dum.ix[i,useful_classes_prefix[j]] = 1
+    print(dum.head())
+    
+#    data = pd.concat([data,dum],axis = 1)
+    return dum
+
+
+feature = "contents"
+useful_classes = ["统计","计算机","数学"]
+dum = get_imp_info(data,feature,useful_classes,"subject")
+data = pd.concat([data,dum],axis = 1)
+data.head()
+
+#技能要求
+def get_imp_info2(data,feature,useful_classes,prefix):
+    """从分词中提取"""
+    useful_classes_prefix = [prefix+"_"+token for token in useful_classes]
+    dum = pd.DataFrame(np.zeros((len(data),len(useful_classes))),columns = useful_classes_prefix)
+    dum = dum.fillna(0)
+    for j in range(len(useful_classes)):
+        token = useful_classes[j]
+#        print(token)
+        for i in range(len(data)):
+            word_list = data.ix[i,feature].split()
+            if token in word_list:
+                print(data.ix[i,feature])
+                dum.ix[i,useful_classes_prefix[j]] = 1
+    print(dum.head())
+    
+#    data = pd.concat([data,dum],axis = 1)
+    return dum
+
+
+feature = "contents"
+#useful_classes = ["python","r语言","spss","excel","ppt","word","sql","sas","vba","office","msoffice",
+#                  "hadoop","spark","hive","scala","hbase","java","matlab","linux","shell","c#"]
+#                  "机器学习","数据挖掘","数学建模","自然语言处理","自然语言","文本挖掘",
+useful_classes = ['excel', 'sql', 'python', 'sas', 'spss','hadoop', 'spark', 'hive', 'shell', 'java']                  
+dum = get_imp_info(data,feature,useful_classes,"skill")
+np.sum(dum)
+# 技能要求前10：excel sql python sas spss | hadoop spark hive shell java 
+data = pd.concat([data,dum],axis = 1)
+data.head()
+
+#技能与平均薪资
+def mean_salary(useful_classes,data,salary,prefix):
+    feature_list = [prefix+"_"+skill for skill in useful_classes]
+    p = len(feature_list)
+    df = pd.DataFrame(np.zeros((p,3)),columns = ["skill","mean_salary","count"])
+    df["skill"] = useful_classes
+    for i in range(p):
+        df["mean_salary"][df["skill"]==useful_classes[i]] = np.mean(data[salary][data[feature_list[i]]==1])
+        df["count"][df["skill"]==useful_classes[i]] = len(data[salary][data[feature_list[i]]==1])
+    return df
+
+useful_classes = ['excel', 'sql', 'python', 'sas', 'spss','hadoop', 'spark', 'hive', 'shell', 'java']                  
+salary = "average_wage"
+prefix = "skill"
+df = mean_salary(useful_classes,data,salary,prefix)
+
+import matplotlib.pyplot as plt
+import seaborn as sns
+
+plt.style.use('ggplot')
+plt.figure(figsize=(8,5)) 
+sns.stripplot(x = "skill",y="mean_salary",data=df,size = 10)
+plt.xlabel("skill_software")
+plt.ylabel("mean_salary")
+plt.savefig("skill_salary.jpg")
+
+# 公司
+data["compname"].value_counts()
+
+
+data.drop(['compname'], axis = 1,inplace=True)
+#data = pd.get_dummies(data)
+
+#data.to_csv("data_analysis.csv",index = False,encoding = "gbk")
+
+
+from sklearn.linear_model import LinearRegression
+X = data.drop(["average_wage",'contents','kmeans','gmm','nmf',"skill_text","index","compname"],axis = 1);Y = data["average_wage"]
+X = pd.get_dummies(X)
+regr = LinearRegression().fit(X,Y)
+#输出R的平方
+print(regr.score(X,Y))
+regr.coef_
+
+
+
+
+#职位诱惑可以做词云图
@@ -0,0 +1,112 @@
+# -*- coding: utf-8 -*-
+"""
+Created on Sun Jun 17 20:21:59 2018
+
+@author: situ
+"""
+
+import requests,re,time
+import os
+import pandas as pd
+import numpy as np
+from urllib.parse import urlencode
+from lxml import etree
+
+
+headers = {
+    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'
+}
+
+replace_dict={
+    "&#xf09f":"0",
+    "&#xeff8":"1",
+    "&#xecfa":"2",
+    "&#xf748":"3",
+    "&#xf298":"4",
+    "&#xed58":"5",
+    "&#xee56":"6",
+    "&#xe253":"7",
+    "&#xe504":"8",
+    "&#xecfd":"9"}
+def get_links(start_url,n,replace_dict):
+    all_pd = pd.DataFrame()
+    for i in list(range(1,n+1)):
+        print("————————————正在爬取第%d页招聘信息———————————————"%i)
+        url = start_url+"&p=%s"%str(i)
+        try:
+            wb_data = requests.get(url,headers=headers)
+            wb_data.encoding=wb_data.apparent_encoding
+            links = re.findall('class="name-box clearfix".*?href="(.*?)"',wb_data.text,re.S)
+            for link in links:
+                print(link)
+                try:
+                    one_pd = get_infos('https://www.shixiseng.com'+link,replace_dict)
+                except:
+                    one_pd = pd.DataFrame({"url":link,"jobname":"","salary":"","address":"",
+                    "education":"","jobway":"","month":"",
+                    "jobgood":"","contents":"","compname":"",
+                    "city":"","size":"","industry":""})
+                    print("can't crawl"+link)
+                all_pd = all_pd.append(one_pd)
+        except:
+            print("can't reach page %d"%i)
+            pass
+                
+    return all_pd
+        
+def get_infos(url,replace_dict):
+    one_dict = {}
+    wb_data = requests.get(url,headers=headers)
+    print(wb_data.status_code)
+    wb_data.encoding=wb_data.apparent_encoding
+    jobname = re.findall('<div class="new_job_name" title="(.*?)">',wb_data.text,re.S)
+    salarys = re.findall('class="job_money cutom_font">(.*?)</span>',wb_data.text,re.S)
+    addresses = re.findall('class="job_position">(.*?)</span>',wb_data.text,re.S)
+    educations = re.findall('class="job_academic">(.*?)</span>',wb_data.text,re.S)
+    jobways = re.findall('class="job_week cutom_font">(.*?)</span>',wb_data.text,re.S)
+    months = re.findall('class="job_time cutom_font">(.*?)</span>',wb_data.text,re.S)
+    jobgoods = re.findall('class="job_good".*?>(.*?)</div>',wb_data.text,re.S)
+    contents = re.findall(r'div class="job_til">([\s\S]*?)<div class="job_til">', wb_data.text, re.S)[0].replace(' ','').replace('\n', '').replace('&nbsp;', '')
+    contents = re.sub(r'<[\s\S]*?>', "", str(contents))
+    compname = re.findall('class="job_com_name">(.*?)</div>',wb_data.text,re.S)
+    compintro = re.findall('<div class="job_detail job_detail_msg"><span>([\s\S]*?)</span></div>',wb_data.text,re.S)
+    city,size,industry = re.sub(r'<[\s\S]*?>', " ", str(compintro[0])).split()
+    for salary,address,education,jobway,month,jobgood in zip(salarys,addresses,educations,jobways,months,jobgoods):
+        for key, vaule in replace_dict.items():
+            salary = salary.replace(key, vaule)
+            jobway = jobway.replace(key,vaule)
+            month = month.replace(key,vaule)
+            one_dict = {"url":url,"jobname":jobname,"salary":salary,"address":address,
+                    "education":education,"jobway":jobway,"month":month,
+                    "jobgood":jobgood,"contents":contents,"compname":compname,
+                    "city":city,"size":size,"industry":industry}
+#    list_i=[url,salary,address,education,jobway,month,jobgood,contents,compname,city,size,industry]
+    print(jobname)
+    one_pd = pd.DataFrame(one_dict)
+    return one_pd
+    
+    
+if __name__ == '__main__':
+    os.chdir("E:/graduate/class/EDA/final")
+    print('请输入您想爬取内容的关键字：')
+    compRawStr = input('关键字： \n')     #键盘读入 多个关键字则用空格隔开
+    print('正在爬取“' + compRawStr.capitalize()+ '”有关实习信息!')
+    d = {'k': compRawStr.encode('utf-8')}
+    word = urlencode(d)
+
+    start_url = "https://www.shixiseng.com/interns/st-intern_c-None_?%s" %word
+    result = requests.get(start_url,headers=headers)
+#    result.status_code
+    result.encoding = 'utf-8'
+    selector = etree.HTML(result.text)  
+    last_page_link = selector.xpath('//*[@id="pagebar"]/ul/li[10]/a/@href')
+    n = int(last_page_link[0].split("p=")[1])
+    print("将爬取%d页的招聘信息"%n)
+    time_start=time.time()
+    df = get_links(start_url,n,replace_dict)
+    df.to_csv(compRawStr+"_共"+str(n)+"页.csv",index = False,encoding = "gb18030")
+    time_end=time.time()
+    print("成功爬取%d条关于【%s】的招聘信息"%(len(df),compRawStr))
+    print('totally cost %f seconds'%(time_end-time_start))
+
+