Googleスプレッドシートは大層優れもので、サイトのスクレイピングもできるとか!(今更!)こりゃぁ頑張ればKindleセール情報をゲットできるかもと頑張ってみた軌跡を書き留めます。
Google Spread SheetはWebスクレイピングができるらしい!
電子書籍万歳な私ですので、Kindleのセール情報はほんとに知りたい情報です。物理的な本に比べ、頻繁にセールされてるのでお得ですよね電子書籍。で、セール時に買い貯めておいても全くかさばらないので便利ですよね、電子書籍。
で、電子書籍のセール情報はアンテナ張って見ていたいわけで。主にセール情報をいち早く教えてくれる、かつまとめてくれているきんどうさんやらキンセリさんのサイトを見ているわけですが、やはり大衆に向けたセール情報なので秋田書店セール!とかいう情報が流れていても具体的に欲しい本がセールされているのかわからないです。
そうなった場合は自力でやるしかないわけで。
Kindleセール情報の取得でやりたいこと
やりたいことは以下3点。
1.欲しい本、単体の価格情報を取得すること
2.スマホでさくっと確認できること
3.単体の価格情報を一画面で確認できること
はっきり言っていろんな言語でスクレイピングはできるんですが…なので単体の価格情報を取得できることまではできます。でもスマホでサクッと確認というところがなかなか到達できませんで。まぁ私がヘタレなところもありますが。
そんな時、Googleスプレッドシートなるものがあるとの情報。
しかもこのスプレッドシート、Webスクレイピングできるとか。
更にこのスプレッドシート、エクセルライクで一覧作成はお手の物とか。
その上このスプレッドシート、マルチデバイス対応でクラウド上のファイルにいろいろなデバイスからアクセスできるとか。
やりたいこと3点があっさりとクリアできそうではありませんか。
具体的な達成方法
こちらのサイトを参考にいたしました。
IMPORTXML関数が無敵のようです。スクレイピングしたい対象のURLと、取得したいデータのXPATHさえわかれば入れ食いだそうです。何これかんたん!環境も何も用意しなくていいから、他の言語に比べて敷居が低い!っていうか皆無!
ただ…XPATHってなんじゃらほい?
XPATHって、どう取得するの?
まずはXPATHですが、こちらのサイトがわかりやすかったです。わかりやすかったというか、一発っす。まとめが上手な人って素敵。
さて、XPATHとはなんぞやがわかったところでタグの構造を紙に書いて…なんてしませんね。もう21世紀です。XPATHの取得なんて一発です。
safariでの取得方法
・「開発」→「Webインスペクタを表示」
・目的の要素を探して、「コピー」→「XPath」
Google Chromeでの取得方法
・「表示」→「開発/管理」→「ディベロッパー ツール」
・目的の要素を探して、「Copy」→「Copy XPath」
と、代表して二つのブラウザでXpathを取得する方法を書いてみましたが、どっちも簡単らくちんぽん。このXPathを二つ目の引数に入れればいいんですね、こら楽勝!
が、動かない
ですがどうにもこうにも動かない。どうすればええねや…助けて賢い人!
コメント