絶対完全無料ツールの紹介

エンジニア目線のブログです

スクレイピング

スクレイピングといってもいろいろな種類があります

PHPでいうSimple HTML DOM Parserはヘッドレスのスクレイピング

PythonSeleniumで偽ブラウザで動かすスクレイピング

Chromeの拡張を利用したJavascriptなどさまざまです

それぞれのメリットデメリットを比較検討していきます。

PHPのデメリット
 JSでレンダリングされるとスクレイピングは無理
 ヘッドレスでセキュリティチェックに引っかかる 大
Seleniumのデメリット
 ヘッドフルでセキュリティチェックに引っかかる 中
Chromeの拡張を利用したJavascript

 

chrome.google.com


 ヘッドフルでセキュリティチェックに引っかかる 小
 初めの動き出し、Chromeのブラウザを空けて、拡張機能の動作
  までを手動でする必要がある
 コマンドから動かすのは無理
 SQLでデータ操作できない