YouTube视频爬虫-批量采集-低成本解决方案-技术难点和细节回顾

2019-01-23 20:56:57

提供另一种方式的采集《 youtube批量采集-低成本解决方案-2》

https://blog.csdn.net/ucsheep/article/details/85066173

背景：对于我们这些国内玩家而言，实现youtube视频爬虫和批量采集有先天性的遗憾。起初，公司需要一大批的youtube视频，时长3分钟左右，720p下载的话，每视频30-50M左右。公司雇了一大批人，采购科学上网神器手工下载，无奈，效率之低令人发指。所以老板要我做爬虫自动采集，需求每天下载2000+个视频，视频存储需要提高国内访问速度，方便合作方的程序抓取我们的内容。

需求来了，接招

第一步，盲人摸路：

分析了一下需求，需要解决的技术节点就三个

1.输入一个youtube创作主页面链接，输出该创作主发布的所有视频，包括此视频封面、标题、播放页链接

针对第一点，首要解决的是访问外网，有两种选择，国外vps和直接购买位于国外云主机。在选择之前，首先要清楚的是，我们每天的下载流量差不多60-80G。而vps的免费流量有限，无法达到需求，云主机按带宽购买，流量没有限制，出于成本考虑，选择云主机。

从财务领了90块钱买了腾讯云位于法兰克福的一台海外云主机一个月，1G1核1M带宽，够用了。至于为什么买腾讯云的呢？其实我们的合作方就是tx，习惯性到了腾讯云，价格比较一下无甚差别，此外出于对第3点的考虑，存储时可以用腾讯云对象存储，抓取效率或许会有增益。

登陆云主机第一件事情，ping www.youtube.com ,可是糟糕了，无应答。怎么回事？看了一下对应ip地址，有点问题，应该是dns的锅，看一下/etc/resolv.conf,问题果然出在这里，腾讯云海外云主机默认使用腾讯云dns服务，这怎么能行（我猜测，原因无外乎两点，1.腾讯云团队的系统镜像制作问题2.或许是法律法规原因）不过也没关系，手动修改，直接换google的dns。测试，访问成功。

接下来，youtube爬虫。youtube页面动态加载，采集这块不想耗费太多时间，而且对速度要求不高，每天需求才2k，所以直接python+selenium+phantomjs，模拟浏览器翻页，把某创作主的所有视频爬到手，存到数据库。不一会，第一个技术节点已经轻松解决！

2.输入一个youtube视频播放页链接，输出一个视频，mp4格式

这块稍稍花了一些时间，原因是希望找到一种提供api的可以直接获取一个下载链接的方式，这样或许可以节约存储成本。google搜索youtube download，有很多第三方网站可以输入一个链接，设置码率然后直接下载，但是很抱歉，并没有一家提供api的。

紧接着，去看了Youtube API，由于没有中文文档，颤抖着读完了英文文档，youtube也没有下载的api，不过，我也发现了一些不错的功能，比如可以通过作者name，或者频道id直接获取播放列表，然后拿到视频详情，这样，爬虫或许是有办法使用Youtube API来实现的，在后续的功能增加中，youtube API也帮了忙，比如在我们的视频审核页面加一个youtube源地址播放，在页面嵌入youtube提供的代码就实现了。

最终，还是选用了强悍的youtube-dl，我们的1M带宽渣渣配置，youtube视频下载速度平均可以达到1.3M/s以上。这样算下来，这样的配置我们就可以实现每天2k+视频的下载需求了。下载需求解决了，视频存储迫在眉睫。

3.输入一个mp4格式的视频，输出一个国内可以轻松下载的链接

视频存储的难点在于，需要在海外就近解决的同时，对国内网络的下载速度不至于太低。使用腾讯云在法兰克福地区的对象存储测试，国内下载速度基本满意。本来希望在一台服务器一边下载一边上传，但是问题来了，上传进程显示上传速度奇慢无比，半小时传一个30M视频。很恼火，但突然之间我也意识到了问题所在。之前为了解决外网访问，我们替换了腾讯云的dns服务，这也意味着腾讯云在海外的数据中心应该是一个庞大的网络，本来可以就近访问，却硬生生绕了巨大的一个圈子！

但是我们还不可以变动这台服务器的网络环境，索性，再搞一台。又和财务领了90块钱，同区买了一台同等配置的服务器，单独作为上传服务。在不更换dns的情况下，文件上传速度果然很喜人，是下载速度的5倍以上，这也意味着，假如我们的需求扩展到每天1w个视频，我们只需要再有4倍的下载性能就解决了，所有的下载的视频都推给上传服务去解决。

由于两台机器处在同一网段，我配置两台机器ssh免秘钥登陆，这样就可以使用内网ip在两台机器之间复制文件（哈哈哈，之前搭Hadoop集群的时候正好做过），速度很快！秒传！600M的文件，1s搞定。

到此，第三个技术点也解决了。

第二步，实现

说来说去，无非是把上面三个点串起来，形成一个链条就OK。

第三部，跑起来

跑了一天，下载并存储了2533个视频，使用内存75G。

我的收获

短短几天，这样一个项目下来，

首先、公司每个月在服务器加存储方面的成本在500RMB以内，效率大幅度提升，省去很多人员工资成本。我为公司创造了不小的价值！

其次、我对于海外网络环境下的开发积累了一定的经验，对于YouTube API做了很多了解，认识了youtube-dl这个神器！

写在最后

我相信，看到这篇文章的差不多都是搞搬运的，好自为之。

2018-02-04 23:56:45

Android如何使用SQLiteOpenHelper在已经存在的数据库中插入一个字段
Andoird的SQLiteOpenHelper类中有一个onUpgrade方法。帮助文档中只是说当数据库升级时该方法被触发。经过实践，解决了我一连串的疑问：

2018-02-05 20:31:29

How to add new Column to Android SQLite Database?
android 数据库新增有默认值的字段。

2018-02-06 15:02:23

"java.io.IOEXception:couldn't create PTY"
itellij,android Stuio 突然报这样的错误。下面是解决方案。

2018-02-06 22:23:01

HTML5 Canvas 的事件处理
DOM是Web前端领域非常重要的组成部分，不仅在处理HTML元素时会用到DOM，图形编程也同样会用到。比如SVG绘图，各种图形都是以DOM节点的形式插入到页面中，这就意味着可以使用DOM方法对图形进行操作。比如有一个<path id=”p1″>元素，可以直接用jquery增加click事件$(‘#p1’).click(function(){…})”。然而这种DOM处理方法在HTML5的Canvas里不再适用，Canvas使用的是另外一套机制，无论在Canvas上绘制多少图形，Canvas都是一个整体，图形本身实际都是Canvas的一部分，不可单独获取，所以也就无法直接给某个图形增加JavaScript事件。

2018-02-09 01:32:48

PHP时间戳和日期相互转换
在php中我们要把时间戳转换日期可以直接使用date函数来实现，如果要把日期转换成时间戳可以使用strtotime()函数实现，下面我来给大家举例说明。

2018-02-09 02:57:46

如何防止多次打开Activity?
android:launchMode="singleTask" 加上这句，每次打开如果已有此activity，就会打开原来的实例，否则会创建新的activity

2018-02-17 18:20:27

multidex 在api 19 遇到的问题，启动闪退，不报错
今天在安卓4.4下跑了一遍我的app，结果崩溃，不过打包好的没问题。

2018-02-17 18:51:26

Context都没弄明白，还怎么做Android开发？
作为Android开发者，不知道你有没有思考过这个问题，Activity可以new吗？Android的应用程序开发采用JAVA语言，Activity本质上也是一个对象，那上面的写法有什么问题呢？估计很多人说不清道不明。

2018-02-17 18:53:18

ContextWrapper中attachBaseContext()方法使用技巧
ContextWrapper类的源码，ContextWrapper中有一个attachBaseContext()方法，这个方法会将传入的一个Context参数赋值给mBase对象，之后mBase对象就有值了。

2018-02-17 23:33:20

NestedScrollView+Recyclerview下滑卡顿解决方法
大家在进行安卓开发用到NestedScrollView+Recyclerview的时候，经常出现的情况就是加载下滑的时候没有任何问题，很流畅，但是在下滑以后明显出现了卡顿的情况，小编根绝这个问题，给大家再来的解决方法，一起来学习下。