php爬取房源,Python 爬虫 链家二手房(自行输入城市爬取)-深圳网站优化推广公司

php爬取房源,Python 爬虫 链家二手房(自行输入城市爬取)

因同事想在沈阳买房,对比分析沈阳各区的房价,让我帮忙爬取一下链家网相关数据,然后打 算记下笔记 用于总结学到的东西&用到的东西。

一.爬虫需要会什么?

学习东西 首先你要知道它是干嘛的。爬虫 顾名思义就是爬取你所看到的网页内容 小说/新闻/信息等。而网页相关的也就是 HTML 学过网页的最清楚不过了。 HTML(超文本标记语言) 用各种标签来识别内容,浏览器会翻译成所看到的网页页面,HTML只是个基础 展示的只是静态的网页(也就是不会动的陈列好的网页) 还需要美化的CSS 和 实现动态的JavaScipt。想学习的可以 参考 HTML 基础 | 菜鸟教程。做爬虫也不需要了解学习很多,只需要了解HTML是基于文档对象模型(DOM)的,以树的结构,存储各种标记。

接下来 就是python(我用的是python3.6) 中 爬虫相关的辅助库

Requests库 比较好用的HTTP库

BeautifulSoup库 优秀的HTML/XML解析库,采用来做爬虫 该库解析时需要个解析器 lxml

辅助的还有很多 由于本文只用到这两个 同时这两个基本足够了,有兴趣的可以百度学习别的。

二.爬虫实例(链家二手房):

1.URL(统一资源定位符 也称为网页地址):链家二手房

像标题所言 自行输入城市 并不是所有的爬虫都通用 要找到每个url 之间的规律,如下

https://sy.lianjia.com/ershoufang/pg1/

https://bj.lianjia.com/ershoufang/pg1/

https://ts.lianjia.com/ershoufang/pg1/

很明显可以看出规律 https:// + city + .lianjia.com/ershoufang/pg +页码+/

由于 基本最多页码就100页 也就不需要自己输入页码(在程序中循环替换页码) 故笔记中 url则为

单页url:

a=1

url ='http://' + user_in_city +'.lianjia.com/ershoufang/pg{}/'

url1.url.format(a)

(或者直接写)

url ='http://' + user_in_city +'.lianjia.com/ershoufang/pg1/'

循环url:

user_in_city='sy'

url ='http://' + user_in_city +'.lianjia.com/ershoufang/pg{}/'

for a in range(1, 101):

url1 = url.format(a)

print(url1)

2.Request

我们可以requests.get(url) 来 Get该网页从而获取该html内容

import requests

url = 'http://sy.lianjia.com/ershoufang/pg1/'

page = requests.get(url)

print(page)

但是实践以后该网站会报错 403 服务器拒绝访问

这就需要我们添加headers 模仿浏览器访问,就变成下面代码

header = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.109 Safari/537.36'}

page = requests.get(url1, headers=header)

a=page.text

print(a)

注:header获取方式

抓取内容如下:

d843b971c19a25961cdb12b2968b28df.png

网页HTML.png

3.BeautifulSoup

BeautifulSoup 作为优秀的HTML/XML解析库 方便又简单

0809b7d4e053c6d6117c242cd55e540d.png

代码.png

如上图所见,点击小红色框框的三角 选中网页上的模块,阴影部分会自动跳到该模块的标签位置(大红色框框)可以把该部分的标签粘贴到本地 方便查看。

import requests

from bs4 import BeautifulSoup

url = 'http://sy.lianjia.com/ershoufang/pg1/'

header = {

'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.109 Safari/537.36'}

page = requests.get(url, headers=header) #访问网址 获取该 html内容

a = page.text

soup = BeautifulSoup(a,"lxml") #解析该网页内容

b=soup.find_all('div',class_='info clear') #find_all 找到 div class='info clear' 的标签

print(b)

爬取的内容就是我们需要的全部内容 中间会掺杂一些标签

6.去除标签

5c1695353f478a621de3782190719d7d.png

标签.png

图片中 我们可以看到 爬取出来中 还掺杂许多标签,而我们只需要文字,然后我想到了正则(可惜我不会,哈哈哈哈,有会的大神可以教教我)

但笨人有笨方法:我们一个一个解析 取文字

像图片中 【枫合万嘉 南北通透…】我们可以看出是 div标签 class=’title’ 的。(因为每页有很多个房源信息 所以我们要 for 循环)

其它标签亦然如此

b8d6214a450738eccb044c592ce164df.png

去标签.png

我们还要爬出导入excle ,因此我在一个房源所有信息中加入[,] 方便我们后续分列 透视(只列出两个标签)

afaa9fe6fa950d13c265272fe2786e71.png

分列.png

7.标签去除掉 就要导入文件

with open("链家-沈阳-二手房-over", "a", encoding='utf-8') as f:

f.write(df+'n')

我导入的是txt 文本 ,有需要可以导入 Excle Csv

8.分析数据(同事分析的一小部分数据)

0506f1070fa13e03880cbc669be6b811.png

分析.png

9.源代码

##author:Abel_chen

##防止你们照搬 我做了两个小错误 偷笑.jpg

import requests

from bs4 import BeautifulSoup

def one_page_code(user_in_city):

url = 'http://' + user_in_city + '.lianjia.com/ershoufang/pg{}/'

for a in range(1, 101):

url1 = url.format(a)

header = {'User-Agent': '*********'}

page = requests.get(url1, headers=header)

a=page.text

soup = BeautifulSoup(a,"lxml")

for b in soup.find_all('div',class_='info clears'):

for wz in b.find_all('div',class_='title'):

wz=wz.get_text()

for ad in b.find_all('div',class_='address'):

ad=ad.get_text()

for ys in b.find_all('div',class_='flood'):

ys=ys.get_text()

for sj in b.find_all('div',class_='followInfo'):

sj=sj.get_text()

for tag in b.find_all('div',class_='tag'):

tag=tag.get_text()

for jg in b.find_all('div',class_='priceInfo'):

jg=jg.get_text()

df=wz + ',' + ad + ',' + ys + ',' + sj + ',' + tag + ',' + jg

with open("链家-沈阳-二手房-over", "a", encoding='utf-8') as f:

f.write(df+'n')

def main():

user_in_city = input('输入爬取城市:')

one_page_code( user_in_city)

if __name__ == '__main__':

main()

在人间贩卖黄昏

博客等级

码龄6年
79
原创
13
点赞
75
收藏
44
粉丝
私信
写文章

最新文章

目录

uni-app之camera组件-人脸拍摄
  • 【ARM+Codesys 客户案例 】 基于RK3568/A40i/STM32+CODESYS在工厂自动化中的应用:伊顿Rapid Link系统...
  • 下列哪个网站还未推出微博服务器,新浪微博笔试题与答案
  • 为什么被折叠? 到【灌水乐园】发言
    前往充值 >
    需支付:10.00
    成就一亿技术人!
    领取后你会自动成为博主和红包主的粉丝
    hope_wisdom
    发出的红包
    实付
    使用余额支付
    点击重新获取
    扫码支付
    钱包余额 0

    抵扣说明:

    1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
    2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

    余额充值

    相关内容推荐

    手机图片网站制作邮购网站制作贴纸手机网站设计制作一般多少钱电子印章制作网站制作网站 pdfphp个人博客网站首页制作合山个人网站制作铜陵网站制作外包青海省建站制作网站深圳网站制作权威乐云践新海宁外贸网站制作东莞横沥网站制作华南师大自考网站制作邢台网站建设网站制作南和网站制作报价制作app类的网站毕业论文网站制作书签161电影网站制作华山网站制作书签沧州孟村企业网站制作哪有制作网站的宁波主页网站制作126网站制作手工西游记猪八戒网站制作郑州财经学院网站制作能够批量制作背景图的网站上海制作网站一般要多少钱漫画网站制作视频台湾美食制作网站榆林门户网站制作静态网站制作样式网页设计个人网站制作代码怎样能制作一个自己的网站旅游小程序制作网站游侠网站制作表情包玉环如何制作个人免费网站模板手机网站制作冰淇淋临湘电商网站制作上海网站制作系统用ps制作个人网站新手制作网站工具包云服务器小网站制作阿城网站制作公司深圳怎么把网站制作哪家公司好云南网站建设制作好的手机网站制作公司如何制作网站设计框架ps制作网站首页界面分栏营销型网站制作一般多少钱网站制作 在线报名系统网站设计制作表格软件专业网站制作二次开发制作网站建设大全华为商城网站的制作目的鬼网站制作头像中小网站建设制作平台制作一个微信链接网站制作网站的架构延庆手机网站制作曲阜市网站制作dw简约网站制作我的世界pe皮肤制作网站崂山区手机网站制作百合网站制作书签玉环制作网站电脑在线制作图片的网站衡水五中网站制作外国机器人制作网站快速仿站网站制作公司慈溪有什么适合自学网站制作有免费印章制作网站吗沈阳网站制作建设相关的it服务保山响应式网站制作自助信息查询系统制作网站南汇租房网站制作郧西网站制作公司常用指南如何用html制作一个网站dwcs6制作个人网站綦江餐饮网站制作哪家便宜怎么制作彩票网站夏邑专业企业网站制作哪家好微信网站开发制作平台报名网站制作软件可以免费制作公司网站吗网页设计制作网站要收费吗网上购物系统网站制作教程制作ppt去哪个网站网站logo动画制作工具龙岗网站制作美食花都制作网站哪家好遂宁制作网站大连网站制作系统人物表情动态制作网站罗湖收费网站制作都有哪些孕妇网站制作表格云服务器小网站制作张越简历制作网站六安市网站优化制作公司制作医学视频的网站定西市自己如何制作网站简约网站制作设计网站建设和网页制作沧州门户网站制作泉州网站制作与网页制作成都网站制作表格软件asp网站怎么制作下载文件台州怎么制作自己的选号网站七天电影网站制作关于简单网站用cs6制作克隆网站制作奶茶单片机制作东西的网站门户网站制作头像app广州网站建设制作厂商钢材网站制作手工网站后台制作联系方式庐山网站制作公司好制作网站公司网络互动网站制作css桂平专题制作网站版式设计网站制作专业制作各种钓鱼网站制作招生海报网站学校网站制作论文峡山区网站制作电话汝阳网站制作有哪些制作一个微网站多少钱制作网站 百度一下Java制作自己的网站网站后端制作教程学习奶茶网站制作实训报告头条视频制作网站好的h5制作网站模板下载杭州网站制作起泡胶不用网站设计与制作答辩妈咪爱网站制作雪糕网站制作prd文档果蔬网站制作手绘身份通网站制作阜新制作网站窗帘网站制作雪糕信封制作网站在线制作拼接图的网站制作钓鱼网站犯法吗潜江网站设计制作哪家好b2c网站制作多少钱东阳南湖如何进行网站制作桂林网站制作表格教程国外某网站制作的修正地图如何制作票务网站合肥网站制作书签教程庆云网站制作台州公司网站开发制作网站制作阐述用于推广招生的网站制作建议web前端制作购物网站步骤平面设计制作网站有哪些泰州网站制作设计视频制作技术 网站舟山华强北综合网站制作哪个好兰州公司网站制作综合网站制作头像用于制作视频教程网站源码宁河网站制作公司初中生作文网站制作线性代数课件网站制作网站投注制作七天电影网站制作茂名制作网站电话池州租房网站制作深圳媒体网站制作哪家快网视科技制作网站沧州沧县网站策划制作宜州响应式网站制作东宝区网站制作企业代理网站制作案例欣赏咸阳网站设计制作报价信阳网站开发制作曹县个性化网站设计制作哪家好长兴摄影网站制作的目的是什么花都网站制作哪家好巴彦淖尔网站制作哪家好手机制作链接的网站哪个网站可以制作字幕淄博网站制作视频慈溪有什么适合自学网站制作温岭网站制作的评价指标有哪些杭州网站制作速成班婚纱模板网站制作上海外贸商城网站制作哈哈网站制作表情包科汛如何制作网站地图哪有制作网站的制作dw音乐网站上海外贸商城网站制作购物网站制作例子信纸模板网站制作制作h5应用网站如何制作网站让别人搜到建网站制作公司旅游网网站制作

    合作伙伴

    深圳网站优化推广公司

    龙岗网络公司
    深圳网站优化
    龙岗网站建设
    坪山网站建设
    百度标王推广
    天下网标王
    SEO优化按天计费
    SEO按天计费系统