博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
scrapy爬取今日头条
阅读量:5950 次
发布时间:2019-06-19

本文共 940 字,大约阅读时间需要 3 分钟。

今日头条加密http://www.cnblogs.com/xuchunlin/p/7097391.html  非常感谢!

参考网站:http://blog.csdn.net/u011475134/article/details/70198533

 

参考网站:http://www.jianshu.com/p/5a93673ce1c0  这位大神写的很详细,不过现在api这个接口有点变化,多了一个参数

 

 

经过测试,这个参数可以固定!

start_urls=[

'https://www.toutiao.com/api/pc/feed/?category=news_finance&utm_source=toutiao&widen=1&max_behot_time={0}&max_behot_time_tmp={0}&tadrequire=true&as={1}&cp={2}&_signature=7DQ2rwAAtiawWJlHXVZg8uw0Nr']

 

请求头

加密算法和js   http://www.cnblogs.com/xuchunlin/p/7097391.html  感谢!

加密的js没找到,直接用大神写的解密方式

 

 

从redis获取数据重组

 

json数据
解析json数据

一开始使用的是,抽取"source_url"的数据,然后301重定向可以访问详细页,跑了几遍之后会有一些奇怪的url,最后发现这样的方式不行,然后重组url。

 

获取下一部分

 

下一部分,只使用10次

3.详细页解析

不是我们熟悉的html呈现,而是js的形式

解析:正则!!====>解析正文部分。

 

 

可以看到有'<>'的html里面的大于小于号

一开始是,把这些符号用正则替换

 

最后运行几次,有个别文章匹配方式跟这种有点不同,达不到通用,换方案!

这一段的正文,在浏览器上呈现,可以看到是一段html文字,所以想到转换,

 

etree呈现出来之后,我们可以提取出来,再次etree

 

解析

这种方式,目前运行正常

在这里只是提供一种方法,也许不是最好的,只要能达到目的就行!

也希望大家能有新的方法!

转载于:https://www.cnblogs.com/recordtime/p/8034196.html

你可能感兴趣的文章
二层的,DTP+CAM/ARP
查看>>
2011工作总结
查看>>
Java学习笔记二:Java开发工具Eclipse的安装与使用
查看>>
3.4-ansible远程执行脚本
查看>>
常见邮件服务器(接收服务器和发送邮件服务器)地址
查看>>
系统监控Zabbix部署文档
查看>>
我的友情链接
查看>>
计算机网络练习题(一)
查看>>
Web服务器技术的优缺点
查看>>
格式化的盘要怎样寻回资料
查看>>
显示字符串子程序
查看>>
JS prototype 属性
查看>>
javascript 操作DOM元素样式
查看>>
常用的Powershell命令
查看>>
这两天学的线程池归纳
查看>>
单列的用法的网址:
查看>>
Unicode字符编码表
查看>>
C++ sqlite3解决中文排序问题
查看>>
Call to a member function allowField() on null 错误总结
查看>>
2019 年 5 月 Android 开发热门开源项目
查看>>