以前の記事で、 x-rayというライブラリを使ってスクレイピングをしてみた話を書きました。 その時に、ページネーションだけでなく、リンク先取得もできればいいと思ったのですが、 先日バージョンアップしていた2.0.0ではすばらしいことに複合的な処理が書けるようになっていました。
さっそく、試してみましょう。 サンプルををちょっといじって実行してみます。
var xray = require('x-ray')();
xray('https://www.google.com/', {
title: 'title',
image: xray('#gbar a:nth-child(2)@href', 'title'),
map: xray('#gbar a:nth-child(3)@href', 'title'),
play: xray('#gbar a:nth-child(4)@href', 'title'),
youtube: xray('#gbar a:nth-child(5)@href', 'title')
})(function(err, obj) {
console.log(obj);
});
ちゃんとそれぞれのページのタイトルが取れました。 「画像検索」はなぜか文字化けしました。
これは便利です。しかも、delayやthrottleの設定までできます。 今度勉強がてらコードも読んでみるといいかもしれません。
また、小ネタでした。
ところで、x-rayってだけだと検索キーワードとしてはあいまいすぎますね。
コメント