IT効率化 情報収集

google spread sheetでスクレイピング入門したよ

Inoreaderを使って情報を取得していますが、
さらに濃度の高い情報がほしいなと思うようになりました。

あ、そういえばば、スクレイピングという技術がありましたね。

スクレイピングを使ってみようよ

「スクレイピング」とは、ネット上の情報を半自動的にクロールさせて、

データを抽出する技術のことです。

最近注目されているRPA(Robotic Process Automation)もスクレイピングの技術から成り立っています。

【参考リンク】

https://www.ex-it-blog.com/RPA-UiPath-Transport-expenses

スクレイピングを古物商に携わる人が使っているのを目にしてはいましたが、調べてみると
用途は広く、AIの学習用データ収集、ルーチン業務の自動化のほか、価格戦略、営業リスト作成、商品価格の相場比較、ホテル料金、残室数の抽出、メディアの自動運用
さらには、口座のスクレイピングをしてポートフォリオ作成などもしてくれるそうです。

ん?よくわからない?要するにウェブを直接ブラウザで見なくても、プログラムがweb上で必要な情報を引っ張って来れるのです。

スクレイピングができるようになったら、個人でも、ビッグデータ(に似たもの)が持てるかもしれない。
それはすなわち、AIが運用できるかもしれない。

そこまでいかなくても、自分もブログ運営や情報収集に使えるし、自営業の人にとってのツールになる。
提供する価値があるんじゃないかな。

最初は、無料で、自分でプログラミングをしてできる範囲をみたいと思います。

スクレイピングは注意点多し

何も考えないとサーバー大量のリクエストを送ってえらい迷惑かけちゃうかもしれず、
逮捕される場合もあるそうです。
リクエストは小分けにして出しましょう。

サイトによってはスクレイピングを禁止しているサイトもあります。

さらにさらに、取得したデータは、使用方法によっては著作権に触れる可能性があります。
自分用以外で使うときは、慎重に。

ということで、まずは手軽にできそうなgoogle spread sheetで、レッツトライ!

IMPORTXMLでオンライン上のXMLを取得できる

https://review-of-my-life.blogspot.jp/2017/07/google-spreadsheet-information.html

「Lineから、好きな女性の画像を送ると、それに似たAV女優を返してくれる、スケベ博士」でおなじみの
DAIさんの記事です。

本記事では、無料のGoogle Spread Sheetの基礎的なことを書いています。

確かに紹介記事の内容は5分でできる。

Google Spread SheettにIMPORTXMLっていう関数があって、html内の要素の値を抜き出してくれて、便利。
なるほど、Google Spread Sheetでスクレイピングしやすいのはよくわかる。

だが、入門編らしく、URLの入力を手作業でするにとどまっている。
URLのコピペを繰り返す作業など「あってはならない」レベルの不便さなので、もう少し、追加で工夫が必要。

とっても便利なIMPORTXMLでデータ収集を自動化

以下の書き方だと、googleの<a>タグをリスト表示できる。

=IMPORTXML("https://www.google.co.jp/","//a")

ああ、便利だね!

'//a'のところの書き方にコツが必要かな。

他の機能も見ていこう。

IMPORTHTMLと言うのも使える

https://tonari-it.com/spreadsheet-improt-func/

IMPORTHTMLという関数もあって、テーブルやリストをごっそり取得できるようです。

IMPORTXMLでサジェストを取得可能

https://xn--t8j3bz04sl3w.xyz/spreadsheet/importxml_/2092/2/
この記事によると、

=ImportXML("http://www.google.com/complete/search?hl=en&output=toolbar&q="&A1,"//suggestion/@data")>

としておいて、A1のセルに入力したキーワードでサジェストを表示してくれます。

今後の紹介予定

スクレイピングをやる方法はいろいろある。
https://qiita.com/lldev2/items/811c77bebc3459f3228f

ノンプログラマー向けに、スクレイピング用ツールの紹介と、スプレッドシート(エクセル/Google Spread Sheet)までをやります。
そのあと、わたしのテリトリーでもあるRuby/Kaminariでやってみようかな。

よく読まれている記事

1

こんにちは、IT行政書士の坂本倫朗(@sakamotohitori)です。今回は、個人事業主に向けた、お金のやりくりを向上させる話です。 もくじ 5年後に笑って振り返れるように資金繰りをしよう資金繰り ...

2

こんにちは、IT行政書士の坂本倫朗(@sakamotohitori)です。今回は、「経営難に陥る会社には共通点がある」という話です。資金繰りを良くしたいとお考えであれば、この記事で紹介していることとは ...

3

もくじ 契約書に数字を書くときのお作法 契約書の日付をあいまいにしない 契約書に記載する金額の正しい書き方 手書きで金額を書くときは、漢数字と大字を使う 契約書の条項号の数字は? 条 項 号 構成の見 ...

4

契約書の書き方で難しい、「契約書のあそこの部分について」を指し示すときの書き方をまとめます。 法律は条、項、号、という順番になっています。契約書もそれに合わせて書きます。 この辺の話は以下の記事にまと ...

-IT効率化, 情報収集