Inoreaderを使って情報を取得していますが、
さらに濃度の高い情報がほしいなと思うようになりました。
あ、そういえばば、スクレイピングという技術がありましたね。
スクレイピングを使ってみようよ
「スクレイピング」とは、ネット上の情報を半自動的にクロールさせて、
データを抽出する技術のことです。
最近注目されているRPA(Robotic Process Automation)もスクレイピングの技術から成り立っています。
【参考リンク】
https://www.ex-it-blog.com/RPA-UiPath-Transport-expenses
スクレイピングを古物商に携わる人が使っているのを目にしてはいましたが、調べてみると
用途は広く、AIの学習用データ収集、ルーチン業務の自動化のほか、価格戦略、営業リスト作成、商品価格の相場比較、ホテル料金、残室数の抽出、メディアの自動運用
さらには、口座のスクレイピングをしてポートフォリオ作成などもしてくれるそうです。
ん?よくわからない?要するにウェブを直接ブラウザで見なくても、プログラムがweb上で必要な情報を引っ張って来れるのです。
スクレイピングができるようになったら、個人でも、ビッグデータ(に似たもの)が持てるかもしれない。
それはすなわち、AIが運用できるかもしれない。
そこまでいかなくても、自分もブログ運営や情報収集に使えるし、自営業の人にとってのツールになる。
提供する価値があるんじゃないかな。
最初は、無料で、自分でプログラミングをしてできる範囲をみたいと思います。
スクレイピングは注意点多し
何も考えないとサーバー大量のリクエストを送ってえらい迷惑かけちゃうかもしれず、
逮捕される場合もあるそうです。
リクエストは小分けにして出しましょう。
サイトによってはスクレイピングを禁止しているサイトもあります。
さらにさらに、取得したデータは、使用方法によっては著作権に触れる可能性があります。
自分用以外で使うときは、慎重に。
ということで、まずは手軽にできそうなgoogle spread sheetで、レッツトライ!
IMPORTXMLでオンライン上のXMLを取得できる
https://review-of-my-life.blogspot.jp/2017/07/google-spreadsheet-information.html
「Lineから、好きな女性の画像を送ると、それに似たAV女優を返してくれる、スケベ博士」でおなじみの
DAIさんの記事です。
本記事では、無料のGoogle Spread Sheetの基礎的なことを書いています。
確かに紹介記事の内容は5分でできる。
Google Spread SheettにIMPORTXMLっていう関数があって、html内の要素の値を抜き出してくれて、便利。
なるほど、Google Spread Sheetでスクレイピングしやすいのはよくわかる。
だが、入門編らしく、URLの入力を手作業でするにとどまっている。
URLのコピペを繰り返す作業など「あってはならない」レベルの不便さなので、もう少し、追加で工夫が必要。
以下の書き方だと、googleの<a>タグをリスト表示できる。
=IMPORTXML("https://www.google.co.jp/","//a")
ああ、便利だね!
'//a'のところの書き方にコツが必要かな。
他の機能も見ていこう。
IMPORTHTMLと言うのも使える
https://tonari-it.com/spreadsheet-improt-func/
IMPORTHTMLという関数もあって、テーブルやリストをごっそり取得できるようです。
IMPORTXMLでサジェストを取得可能
https://xn--t8j3bz04sl3w.xyz/spreadsheet/importxml_/2092/2/
この記事によると、
=ImportXML("http://www.google.com/complete/search?hl=en&output=toolbar&q="&A1,"//suggestion/@data")>
としておいて、A1のセルに入力したキーワードでサジェストを表示してくれます。
今後の紹介予定
スクレイピングをやる方法はいろいろある。
https://qiita.com/lldev2/items/811c77bebc3459f3228f
ノンプログラマー向けに、スクレイピング用ツールの紹介と、スプレッドシート(エクセル/Google Spread Sheet)までをやります。
そのあと、わたしのテリトリーでもあるRuby/Kaminariでやってみようかな。