用百度快照和phantomjs让射手网起死回生

  牢骚

  射手网关门了,声讨的话网上已经铺天盖地,我不想多啰嗦,我只说一句:

  某些部门的老爷有折腾字幕组的闲工夫,不如去整治一下铺天盖地的电视购物骗子广告,我会给你们烧香感谢的。

  正题

  射手网关站之后,网上流传一个射手下载器,简单研究了一下,发现这东西调用的是射手播放器的api,一部电影只能获取一个字幕,无法选择,而且很多字幕都不匹配。

  那么问题来了,既然射手播放器仍然可以获取字幕,那么证明字幕文件仍然存在于射手的服务器上。因为它们是同一个来源,我们能不能用其他方法也从服务器上得到字幕呢?也就是说,射手网只是关闭了前台页面,我们只要获取字幕的文件名索引,仍然可以下载到字幕文件,于是我想到了百度快照。

  只需在百度里输入site:shooter.cn 电影名称,就会出现很多结果,这些结果现在直接打开,会跳转到射手首页,可是我们可以点击快照:

  有的快照是结果页的,有的快照打开会出现字幕列表,如果出现列表,打开其中的任意一项仍然会跳转到首页,怎么办呢?好办,我们先去看列表里任意一项的链接,链接的最后是一个xml文件,我们用这个xml文件名做关键字继续搜索,就能得到它的结果页快照:

  好了,第一步已经完成了,百度快照几乎保存了所有射手字幕的索引,只要用一定的技巧,都可以搜出来,那么接下来,我们就要获取字幕。

  通过分析快照结果页中的射手源码,我发现了一个猫腻,即,射手的每一个字幕文件都有一个唯一的id,而这个id以下载次数的形式显示在每个字幕的页面中,也就是说,页面中显示的下载次数,并不是真正的次数,而是字幕的id号:

  有了这个id,一切好办,射手现在还能访问的页面,除了那个告别首页,还有一个字幕上传页面 http://shooter.cn/sub/upload.html,网站都关了还留着上传页面干嘛?一定有问题,那么打开这个页面,查看一下里面所有的js代码:

  终于,在loadmain.js里面我发现了这样的代码:

  function shtgdownfile(g, j, f, d) {

  var a = makeXmlReq();

  try {

  g.target = ""

  } catch (c) {

  alert(c)

  }

  a.open("GET", "/files/file3.php?hash=" + shtg_filehash + "&fileid=" + j, false);

  a.send("");

  if (a.status == 200 || a.status == 304) {

  var b = a.responseText;

  if (b && b.indexOf("ERR:") < 0) {

  showcounter("downcounter", j, "file", "total", 1);

  b = (shtg_calcfilehash(b));

  var h = "http://file1.shooter.cn" + b;

  if (!d) {

  g.href = h;

  g.target = "_blank"

  }

  if (f) {

  location.href = h

  }

  return true

  }

  }

  alert("文件获取失败:" + a.status + " _ " + b)

  }

  一切一目了然,我们只需照做即可

  首先,在浏览器里面输入:

  http://www.shooter.cn/files/file3.php?hash=duei7chy7gj59fjew73hdwh213f&fileid=所要下载的字幕文件的id

  (其中,duei7chy7gj59fjew73hdwh213f就是上面代码中的shtg_filehash,它是个常量,值同样来自于loadmain.js),会返回如下的结果。注意这里的编码要用utf8,否则显示乱码:

  这是一段经过变换的post参数,要变换回去,我们按照上面代码中所写,利用射手自身的一个函数

  shtg_calcfilehash,先用浏览器访问http://shooter.cn/sub/upload.html,然后让浏览器执行:javascript:var address=shtg_calcfilehash('刚才得到的字符串');alert(address);

  非常好,直接弹出了正确的post参数,在这段参数的前面加上http://file1.shooter.cn,直接访问,bingo!!!,字幕终于成功下载了!

  神器:自动化下载脚本

  上面的下载过程实在太繁琐,如果有很多字幕要下载,每个都这样来一遍,不得累死啊,所以,一个下载脚本是必须的。

  在这里我要介绍一个强大的爬虫引擎:phantomjs,它可以用javascript做开发,只有一个可执行文件却非常强大,实际上它是一个没有界面的webkit引擎浏览器,而且是跨平台的,它的好处一个是脚本语言直接使用js,这样页面中很多js函数它可以直接使用和修改,另一个是它可以方便的抓取到用ajax异步生成的页面。

  好了,介绍结束,脚本代码如下:

  /*

  Name: phantomjs射手字幕下载脚本

  File: shooter.js

  Author: b41k3r

  */

  var system = require('system')

  var fileid = system.args[1];

  var page = require('webpage').create();

  var execFile = require("child_process").execFile

  var fs = require("fs");

  var filename = "address.txt";

  if (!fs.exists(filename)) {

  var file = fs.open(filename, 'a');

  }else{

  fs.remove(filename);

  var file = fs.open(filename, 'a');

  }

  var url = "http://www.shooter.cn/files/file3.php?hash=duei7chy7gj59fjew73hdwh213f&fileid="+fileid;

  page.open(url, function (status) {

  if (status !== 'success') {

  console.log('Unable to post!');

  } else {

  if (page.injectJs('filehash.js')) {

  var address = 'http://file1.shooter.cn' + page.evaluate(function(post_parameter) {return shtg_calcfilehash(post_parameter);},page.plainText);

  console.log(address);

  file.write(address);

  file.close();

  execFile("wget", ["-O", fileid + ".rar","-i", "address.txt"], null, function (err, stdout, stderr) {

  console.log("execFileSTDOUT:", JSON.stringify(stdout))

  console.log("execFileSTDERR:", JSON.stringify(stderr))

  })

  }

  }

  setTimeout(function () { phantom.exit(0) }, 2000)

  });

  phantomjs没有下载功能,这里的下载直接调用了wget,另外注意上面的page.injectJs('filehash.js'),这个包含进来的filehash.js文件的内容实际上就是射手的变换函数shtg_calcfilehash,我把它放在了本地执行,phantomjs的好处在这里完全体现。

  在命令行执行: phantomjs shooter.js 字幕文件的id :

  脚本成功的下载了字幕。

  一切大功告成,射手网复活了。

  phantomjs以及脚本源码和wget打包下载

  http://pan.baidu.com/s/1o6JVdW2

 

上一篇:智能无惧挑战 山石网科轰动RSA2015

下一篇:走近科学:那些年,媒体笔下被夸大的黑客