少人数経営に必要な、法務、経理、お金、メンタルケアの情報を坂本倫朗が毎日更新するMEIMEI(メイメイ)。

MEIMEI | ひとりビジネスのラクラク総務

IT効率化 情報収集

google spread sheetでスクレイピング入門したよ

投稿日:

広告

Inoreaderを使って情報を取得していますが、
さらに濃度の高い情報がほしいなと思うようになりました。

あ、そういえばば、スクレイピングという技術がありましたね。

スクレイピングを使ってみようよ

「スクレイピング」とは、ネット上の情報を半自動的にクロールさせて、

データを抽出する技術のことです。

最近注目されているRPA(Robotic Process Automation)もスクレイピングの技術から成り立っています。

【参考リンク】

https://www.ex-it-blog.com/RPA-UiPath-Transport-expenses

スクレイピングを古物商に携わる人が使っているのを目にしてはいましたが、調べてみると
用途は広く、AIの学習用データ収集、ルーチン業務の自動化のほか、価格戦略、営業リスト作成、商品価格の相場比較、ホテル料金、残室数の抽出、メディアの自動運用
さらには、口座のスクレイピングをしてポートフォリオ作成などもしてくれるそうです。

ん?よくわからない?要するにウェブを直接ブラウザで見なくても、プログラムがweb上で必要な情報を引っ張って来れるのです。

スクレイピングができるようになったら、個人でも、ビッグデータ(に似たもの)が持てるかもしれない。
それはすなわち、AIが運用できるかもしれない。

そこまでいかなくても、自分もブログ運営や情報収集に使えるし、自営業の人にとってのツールになる。
提供する価値があるんじゃないかな。

最初は、無料で、自分でプログラミングをしてできる範囲をみたいと思います。

スクレイピングは注意点多し

何も考えないとサーバー大量のリクエストを送ってえらい迷惑かけちゃうかもしれず、
逮捕される場合もあるそうです。
リクエストは小分けにして出しましょう。

サイトによってはスクレイピングを禁止しているサイトもあります。

さらにさらに、取得したデータは、使用方法によっては著作権に触れる可能性があります。
自分用以外で使うときは、慎重に。

ということで、まずは手軽にできそうなgoogle spread sheetで、レッツトライ!

IMPORTXMLでオンライン上のXMLを取得できる

https://review-of-my-life.blogspot.jp/2017/07/google-spreadsheet-information.html

「Lineから、好きな女性の画像を送ると、それに似たAV女優を返してくれる、スケベ博士」でおなじみの
DAIさんの記事です。

本記事では、無料のGoogle Spread Sheetの基礎的なことを書いています。

確かに紹介記事の内容は5分でできる。

Google Spread SheettにIMPORTXMLっていう関数があって、html内の要素の値を抜き出してくれて、便利。
なるほど、Google Spread Sheetでスクレイピングしやすいのはよくわかる。

だが、入門編らしく、URLの入力を手作業でするにとどまっている。
URLのコピペを繰り返す作業など「あってはならない」レベルの不便さなので、もう少し、追加で工夫が必要。

とっても便利なIMPORTXMLでデータ収集を自動化

以下の書き方だと、googleの<a>タグをリスト表示できる。

=IMPORTXML("https://www.google.co.jp/","//a")

ああ、便利だね!

'//a'のところの書き方にコツが必要かな。

他の機能も見ていこう。

IMPORTHTMLと言うのも使える

https://tonari-it.com/spreadsheet-improt-func/

IMPORTHTMLという関数もあって、テーブルやリストをごっそり取得できるようです。

IMPORTXMLでサジェストを取得可能

https://xn--t8j3bz04sl3w.xyz/spreadsheet/importxml_/2092/2/
この記事によると、

=ImportXML("http://www.google.com/complete/search?hl=en&output=toolbar&q="&A1,"//suggestion/@data")>

としておいて、A1のセルに入力したキーワードでサジェストを表示してくれます。

今後の紹介予定

スクレイピングをやる方法はいろいろある。
https://qiita.com/lldev2/items/811c77bebc3459f3228f

ノンプログラマー向けに、スクレイピング用ツールの紹介と、スプレッドシート(エクセル/Google Spread Sheet)までをやります。
そのあと、わたしのテリトリーでもあるRuby/Kaminariでやってみようかな。

よく読まれている記事

1

目次「デザイナーのためのgit入門(初級編)」終了しましたgitの導入メリットgitのセミナー、今後も開催します 「デザイナーのためのgit入門(初級編)」終了しました インタラクトテクノロジー株式会 ...

2

明日は、デザイナー向けに、PhotoShop、Illustratorの管理をする方法をお伝えするセミナーを行います。 SourceTreeを使ったGIT管理方法をお伝えします。 Gitで管理しないデザ ...

3

目次EPUBの規格についてEPUBって?EPUB3の形式でないと、縦書きに対応できないEPUBのファイルを作成できるツール・サービスでんでんコンバーターとRomancerについてでんでんコンバーターR ...

4

目次「内向型人間のすごい力」の本気質、性格、人格についての定義種類とその語源定義=真実ではない 「内向型人間のすごい力」の本 アドラー心理学・ヒューマン・ギルドの岩井俊憲先生が、『内向型人間のすごい力 ...

-IT効率化, 情報収集

Copyright© MEIMEI | ひとりビジネスのラクラク総務 , 2018 All Rights Reserved Powered by STINGER.