当前位置: 主页 > 社会实践 >

网络爬虫应用情景分析

来源:山东大学 作者:Vendy

随着互联网信息的“爆炸”,网络爬虫渐渐为人们所熟知,并被应用到了社会生活的众多领域。作为一种自动采集网页数据的技术,很多人其实并不清楚网络爬虫具体能应用到什么场景。事实上,大多数依赖数据支撑的应用场景都离不开网络爬虫,包括搜索引擎、舆情分析与监测、聚合平台、出行类软件等。

搜索引擎是通用网络爬虫最重要的应用场景之一,它会将网络爬虫作为最基础的部分——互联网信息的采集器,让网络爬虫自动到互联网中抓取数据。例如谷歌、百度、必应等搜索引擎都是利用网络爬虫技术从互联网上采集海量的数据。

政府或企业通过网络爬虫技术自动采集论坛评论、在线博客、新闻媒体或微博等网站中的海量数据,采用数据挖掘的相关方法(如词频统计、文本情感计算、主题识别等)发掘舆情热点,跟踪目标话题,并根据一定的标准采取相应的舆情控制与引导措施。例如,百度热点排行榜、微博热搜排行榜。

如今出现的很多聚合平台,如返利网、慢慢买等,也是网络爬虫技术的常见的应用场景,这些平台就是运用网络爬虫技术对一些电商平台上的商品信息进行采集,将所有的商品信息放到自己的平台上展示,并提供横向数据的比较,帮助用户寻找实惠的商品价格。例如,用户在慢慢买平台搜索华为智能手表后,平台上展示了很多款华为智能手表的价格分析及价格走势等信息。

出行类软件,比如飞猪、携程、去哪儿等,也是网络爬虫应用比较多的场景。这类应用运用网络爬虫技术,不断地访问交通出行的官方售票网站刷新余票,一旦发现有新的余票便会通知用户付款买票。不过,官方售票网站并不欢迎网络爬虫的这种行为,因为高频率地访问网页极易造成网站出现瘫痪的情况。

爬虫介绍

爬虫程序通过请求url地址,根据响应的内容进行解析采集数据,就是用代码模拟人的行为,去各各网站溜达、点点按钮、查查数据。或者把看到的数据拿下来。

作用:

通过有效的爬虫手段批量采集数据,可以降低人工成本,提高有效数据量,给予运营/销售的数据支撑,加快产品发展。

爬虫应用领域:

批量采集某个领域的招聘数据,对某个行业的招聘情况进行分析

批量采集某个行业的电商数据,以分析出具体热销商品,进行商业决策 • 采集目标客户数据,以进行后续营销

批量爬取腾讯动漫的漫画,以实现脱网本地集中浏览

开发一款火车票抢票程序,以实现自动抢票

爬取评论,舆情监控

爬取说说信息,分析上线时间

爬虫的合法性:

俗话说:“爬虫爬得欢,监狱要坐穿;数据玩的溜,牢饭吃个够”。

爬虫是否违法视情况而定。

合法的爬虫:

公开的数据,没有标识不可爬取

不影响别人服务器

不影响的业务

不合法的爬虫:

用户数据

部分网站、APP数据超过指定数量

明文规定不让爬取

在域名后加上/robots.txt查看

页面上标明

影响业务

影响服务器

类似DDOS攻击的问题

disallow就是不允许爬虫,allow允许。

但是并非所有网站都会有robots.txt来提供是否允许爬虫的信息,这时候就看自己了哈哈哈哈哈。

我们能爬的数据并不代表合法,需要谨慎判断。

提示:

部分爬虫虽然违法,但公司、或企业不会直接报警。会采用反爬的手段,严重后才会报警。

反爬与反反爬:

反爬:有时企业不想自己的数据被别人拿到。这时就会设置反爬的手段,来不让爬虫获取数据。

反爬虫常用一些手段:

合法检测:请求校验(useragent,referer,接口加签 ,等)

验证码:识别文字、做题、滑动等

小黑屋:IP/用户限制请求频率,或者直接拦截

投毒:反爬虫高境界可以不用拦截,拦截是一时的,投毒返回虚假数据,可以误导竞品决策

反反爬:破解掉反爬手段,再获取其数据。(话说所有的手段都能破解嘛?)

道高一尺魔高一丈,这是一场没有硝烟的战争,程序员VS程序员

http://www.dxsbao.com/shijian/549487.html 点此复制本页地址

相关内容

走进淄博陶瓷琉璃博物馆——加强文化自信

淄博,这座拥有悠久历史与灿烂文化的城市,孕育了独具特色的陶瓷琉璃文化。淄博陶瓷的历史可以追溯到新石器时代早期的后李文化,距今已有约一万年的历史。淄博的陶瓷产业在继承传统工艺…… 冯天然 曲阜师范大学生命科学学院查看全文 >>

推荐内容

曲园学子三下乡:爱心传递,温暖童心

少年儿童是祖国的未来,是中华民族的希望,儿童的健康成长需要全社会的共同守护。为深入学习新时代中国特色社会主义思想,曲…

走进淄博陶瓷琉璃博物馆——加强文化自信

淄博,这座拥有悠久历史与灿烂文化的城市,孕育了独具特色的陶瓷琉璃文化。淄博陶瓷的历史可以追溯到新石器时代早期的后李文…

曲园学子寒假社会实践——厚道荆门行温暖回家路

2025年1月15日晚19点,曲阜师范大学历史文化学院“青史践履,睦邻同行”社会实践队来到了湖北省荆门市荆门西站参与了“温暖回家…

走进潍坊风筝博物馆——领略风筝文化魅力

为深入探究与亲身体验了解风筝文化的深厚内涵,曲阜师范大学生命科学学院“青春寻古韵,文化薪火传”社会实践队于1月15日走进…

探秘非遗之旅:曲园学子聚焦短穗花鼓奥秘

非物质文化遗产,承载着一个民族的历史记忆、文化基因与精神内核。它是我们先辈智慧的结晶,以独特的方式诉说着过去的故事,…

最新发布

过年计划之庙会
大年三十的晚上,我们一家人去逛庙会。逛庙会是中国特有的集吃喝玩乐于一体的传统民俗文化活动。逛庙会起源于寺庙周围,所以叫“庙”。又由于小商小贩们看到烧香拜佛者多,就在庙外面摆起了各种小摊来赚他们…
人间烟火处,年味渐浓时
从2020年开始,今年是留在自己家中而没有回老家过年的第4年啦。过去总纠结于十二点的倒计时,沉迷于满桌的年夜饭,忽然绽放的烟火,其乐融融的春晚,门上贴着的福字,觉得这才是年味,这才是过年。直到今年,…
过年计划之饺子
年味,即是年俗的味道,约定俗成。提起年味,那必然少不了年夜饭。北方的主食是饺子,而南方的主食是汤圆。“好吃不如饺子”,北方除夕夜吃饺子那是约定俗成的,而南方则是吃汤圆,寓意一年都团团圆圆。在潍…
过年计划之酥锅
酥锅是山东淄博传统名菜,多在传统春节期间食用。传说是清朝初年颜神镇一位叫苏小妹的妇女创始,故菜名为“苏锅”。又因此菜肴用醋较多,以肉鱼骨刺酥烂为主要特征,遂改名为“酥锅菜”。今年我第一次去到爷…
网络爬虫合法性的探究
【内容提要】本文通过分析近年来的诸多网络爬虫技术的民事权益纠纷和刑事案件,首先从网络爬虫的基本概念与具体应用场景入手简单介绍爬虫技术的基本内容,接着通过近年来的爬虫案例分析其中法律内涵,然后讲…
(反)爬虫技术原理与构建分析报告
导语:简要介绍通用爬虫技术的原理,聚焦于聚焦网络爬虫进行分析,网络爬行时为提高效率优化爬行策略、贴合网页更新频率、分析算法三个方面进行简单阐述方法。以python为例,向网页发起HTTP请求,简述python的网…
红色观影
红色观影,共庆华诞为庆祖国华诞,我支部联合光电与信息科学支部于10月3日共同举办“青春献礼,同心逐梦”的主题活动,为中华人民共和国献礼。党的红色资源承载着红色基因、红色传统、红色使命。无论岁月如何…
主题研学
在建党100周年的伟大历史节点,老党员以红色精神塑造先锋模范的榜样力量,以红色薪火点燃支部成员的理想信念,以丰富鲜活的红色故事为党史学习赋能添彩。作为新时代的青年,我们从他们手里接过时代的接力棒,…
爬虫应用场景分析
相信大家在春节的时候都有过抢火车票的经历,对一些抢票软件一定不会感到陌生。今天我们就来从技术的角度,来看看抢票软件背后的东西——爬虫。通俗点说,爬虫就是模拟人的行为去各个网站溜达,并把看到的信…
关于网络爬虫的相关案例分析
摘要:网络爬虫,又称网络蜘蛛或网络机器人,是一种自动抓取万维网资源的程序。目前已被广泛而成熟的应用于各种商业模式和应用场景,且在当下以及未来很长一段时间内都会是最为常用的网络数据获取手段。网络…