当前位置: 主页 > 社会实践 >

网络爬虫应用情景分析

来源:山东大学 作者:Vendy

随着互联网信息的“爆炸”,网络爬虫渐渐为人们所熟知,并被应用到了社会生活的众多领域。作为一种自动采集网页数据的技术,很多人其实并不清楚网络爬虫具体能应用到什么场景。事实上,大多数依赖数据支撑的应用场景都离不开网络爬虫,包括搜索引擎、舆情分析与监测、聚合平台、出行类软件等。

搜索引擎是通用网络爬虫最重要的应用场景之一,它会将网络爬虫作为最基础的部分——互联网信息的采集器,让网络爬虫自动到互联网中抓取数据。例如谷歌、百度、必应等搜索引擎都是利用网络爬虫技术从互联网上采集海量的数据。

政府或企业通过网络爬虫技术自动采集论坛评论、在线博客、新闻媒体或微博等网站中的海量数据,采用数据挖掘的相关方法(如词频统计、文本情感计算、主题识别等)发掘舆情热点,跟踪目标话题,并根据一定的标准采取相应的舆情控制与引导措施。例如,百度热点排行榜、微博热搜排行榜。

如今出现的很多聚合平台,如返利网、慢慢买等,也是网络爬虫技术的常见的应用场景,这些平台就是运用网络爬虫技术对一些电商平台上的商品信息进行采集,将所有的商品信息放到自己的平台上展示,并提供横向数据的比较,帮助用户寻找实惠的商品价格。例如,用户在慢慢买平台搜索华为智能手表后,平台上展示了很多款华为智能手表的价格分析及价格走势等信息。

出行类软件,比如飞猪、携程、去哪儿等,也是网络爬虫应用比较多的场景。这类应用运用网络爬虫技术,不断地访问交通出行的官方售票网站刷新余票,一旦发现有新的余票便会通知用户付款买票。不过,官方售票网站并不欢迎网络爬虫的这种行为,因为高频率地访问网页极易造成网站出现瘫痪的情况。

爬虫介绍

爬虫程序通过请求url地址,根据响应的内容进行解析采集数据,就是用代码模拟人的行为,去各各网站溜达、点点按钮、查查数据。或者把看到的数据拿下来。

作用:

通过有效的爬虫手段批量采集数据,可以降低人工成本,提高有效数据量,给予运营/销售的数据支撑,加快产品发展。

爬虫应用领域:

批量采集某个领域的招聘数据,对某个行业的招聘情况进行分析

批量采集某个行业的电商数据,以分析出具体热销商品,进行商业决策 • 采集目标客户数据,以进行后续营销

批量爬取腾讯动漫的漫画,以实现脱网本地集中浏览

开发一款火车票抢票程序,以实现自动抢票

爬取评论,舆情监控

爬取说说信息,分析上线时间

爬虫的合法性:

俗话说:“爬虫爬得欢,监狱要坐穿;数据玩的溜,牢饭吃个够”。

爬虫是否违法视情况而定。

合法的爬虫:

公开的数据,没有标识不可爬取

不影响别人服务器

不影响的业务

不合法的爬虫:

用户数据

部分网站、APP数据超过指定数量

明文规定不让爬取

在域名后加上/robots.txt查看

页面上标明

影响业务

影响服务器

类似DDOS攻击的问题

disallow就是不允许爬虫,allow允许。

但是并非所有网站都会有robots.txt来提供是否允许爬虫的信息,这时候就看自己了哈哈哈哈哈。

我们能爬的数据并不代表合法,需要谨慎判断。

提示:

部分爬虫虽然违法,但公司、或企业不会直接报警。会采用反爬的手段,严重后才会报警。

反爬与反反爬:

反爬:有时企业不想自己的数据被别人拿到。这时就会设置反爬的手段,来不让爬虫获取数据。

反爬虫常用一些手段:

合法检测:请求校验(useragent,referer,接口加签 ,等)

验证码:识别文字、做题、滑动等

小黑屋:IP/用户限制请求频率,或者直接拦截

投毒:反爬虫高境界可以不用拦截,拦截是一时的,投毒返回虚假数据,可以误导竞品决策

反反爬:破解掉反爬手段,再获取其数据。(话说所有的手段都能破解嘛?)

道高一尺魔高一丈,这是一场没有硝烟的战争,程序员VS程序员

http://www.dxsbao.com/shijian/549487.html 点此复制本页地址

相关内容

2022级经济班11月23日开展“携手捐书,点亮阅读之光”志愿活动

(通讯员李茜)11月23日上午,由湖南师范大学商学院22级经济班和金融班共同组织的志愿活动“携手捐书,点亮阅读之光”以线下方式开展。青志协小组长李茜和周恬伊为此次活动主要负责人。活…… 李茜 湖南师范大学商学院查看全文 >>

推荐内容

湖南师范大学公管院青工部开展“童样想法,哲样启迪”志愿活动

(通讯员宋金娥王君青)11月22日下午,由公共管理学院(以下简称公管院)团委青工部主办的志愿活动“童样想法,哲样启迪”于…

电工建模协会成功举办“乒乓球上的c语言”趣味竞赛

为了丰富同学们的课余生活,点燃大家对电气与电子工程学院电工建模协会的热情,11月17日,电工建模协会于第四体育场精心组织…

会计二班青年马克思实践小组开展第一次活动

2024级会计二班开展青年马克思实践第一次活动小组成员观看二十届三中全会视频(通信员杨俊杰万昊儒)为深入贯彻习近平新时代…

音乐会通讯

11月22日晚,山东大学(威海)歌声飞扬协会于玲珑学堂举办了“乐动心弦,梦绘未来”主题音乐会。本次音乐会旨在丰富师生的校…

心梦交织的志愿华章

在城市的角落,有这样一群人,他们身着红马甲,如同一簇簇温暖的火焰,汇聚成名为“心语汇梦”的志愿服务队。“心语”是心灵…

最新发布

过年计划之庙会
大年三十的晚上,我们一家人去逛庙会。逛庙会是中国特有的集吃喝玩乐于一体的传统民俗文化活动。逛庙会起源于寺庙周围,所以叫“庙”。又由于小商小贩们看到烧香拜佛者多,就在庙外面摆起了各种小摊来赚他们…
人间烟火处,年味渐浓时
从2020年开始,今年是留在自己家中而没有回老家过年的第4年啦。过去总纠结于十二点的倒计时,沉迷于满桌的年夜饭,忽然绽放的烟火,其乐融融的春晚,门上贴着的福字,觉得这才是年味,这才是过年。直到今年,…
过年计划之饺子
年味,即是年俗的味道,约定俗成。提起年味,那必然少不了年夜饭。北方的主食是饺子,而南方的主食是汤圆。“好吃不如饺子”,北方除夕夜吃饺子那是约定俗成的,而南方则是吃汤圆,寓意一年都团团圆圆。在潍…
过年计划之酥锅
酥锅是山东淄博传统名菜,多在传统春节期间食用。传说是清朝初年颜神镇一位叫苏小妹的妇女创始,故菜名为“苏锅”。又因此菜肴用醋较多,以肉鱼骨刺酥烂为主要特征,遂改名为“酥锅菜”。今年我第一次去到爷…
网络爬虫合法性的探究
【内容提要】本文通过分析近年来的诸多网络爬虫技术的民事权益纠纷和刑事案件,首先从网络爬虫的基本概念与具体应用场景入手简单介绍爬虫技术的基本内容,接着通过近年来的爬虫案例分析其中法律内涵,然后讲…
(反)爬虫技术原理与构建分析报告
导语:简要介绍通用爬虫技术的原理,聚焦于聚焦网络爬虫进行分析,网络爬行时为提高效率优化爬行策略、贴合网页更新频率、分析算法三个方面进行简单阐述方法。以python为例,向网页发起HTTP请求,简述python的网…
红色观影
红色观影,共庆华诞为庆祖国华诞,我支部联合光电与信息科学支部于10月3日共同举办“青春献礼,同心逐梦”的主题活动,为中华人民共和国献礼。党的红色资源承载着红色基因、红色传统、红色使命。无论岁月如何…
主题研学
在建党100周年的伟大历史节点,老党员以红色精神塑造先锋模范的榜样力量,以红色薪火点燃支部成员的理想信念,以丰富鲜活的红色故事为党史学习赋能添彩。作为新时代的青年,我们从他们手里接过时代的接力棒,…
爬虫应用场景分析
相信大家在春节的时候都有过抢火车票的经历,对一些抢票软件一定不会感到陌生。今天我们就来从技术的角度,来看看抢票软件背后的东西——爬虫。通俗点说,爬虫就是模拟人的行为去各个网站溜达,并把看到的信…
关于网络爬虫的相关案例分析
摘要:网络爬虫,又称网络蜘蛛或网络机器人,是一种自动抓取万维网资源的程序。目前已被广泛而成熟的应用于各种商业模式和应用场景,且在当下以及未来很长一段时间内都会是最为常用的网络数据获取手段。网络…