博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
python网页分析
阅读量:6487 次
发布时间:2019-06-24

本文共 399 字,大约阅读时间需要 1 分钟。

像是那种爬去图片的网站,一般在总的页面哪里就能拿到原图的链接,虽然你查看网页源码之后,可能看到的还是只有压缩后的图片地址,但是原图的地址其实会在压缩地址的后面给你,但是他一般不会直接给你,他会隐藏性的给出来,这就考究你的连接怕拼接还有观察能力了。

举例:
当你在网页源码当中只能找到这样的链接而已:

<img src="" /></a><b><a href="">

在这个链接当中,你打开看到的会是一个缩略图,但是你点开之后,你会发现他居然跳到了/  这个链接,而这个链接就是原图,那么你就成功的得到了原图的链接,接下来就差解决翻页的问题而已了。翻页问题一般可以通过观察网页结构获得,但是那些链接特别复杂的网页,你可以通过找网页源码的方式获得,一般都能找到,除非是那种设计很差的辣鸡网站。

转载于:https://www.cnblogs.com/myxdashuaige/p/9547282.html

你可能感兴趣的文章
JBoss 系列五十:使用Apache httpd(mod_jk)和JBoss构架高可用集群环境
查看>>
Cassandra Dev 1: Cassandra 入门
查看>>
python 处理日志文件
查看>>
ElasticSearch 创建父子类型
查看>>
Redis内存分析工具
查看>>
comet 异步请求技术中相关关键字解释 (新手向)
查看>>
php数组根据指定列排序
查看>>
VC++多线程编程[转]
查看>>
【SQLAlchemy】PostgreSQL的自增长主键定义
查看>>
电商ERP系统厂商需服务转型才能改变低迷状况
查看>>
OC基础第二天
查看>>
2016年终总结
查看>>
基于Swoole开发PHP扩展
查看>>
ci框架的session类,怎么使用ci的session类
查看>>
《Netkiller Spring Cloud 手札》之 Master / Slave 主从数据库数据源配置
查看>>
rgba的兼容性 IE
查看>>
分布式系统之通信技术学习
查看>>
guava Lists.transform 踩过的坑
查看>>
创业路上,如何预防外包被坑?
查看>>
转载-extern “C”用法分析
查看>>