技術日記6/16-6/21
超亀ログだけど手元に作業ログがあるのでブログにも一応書いておく
AWS Lambdaでスクレイピングアプリを動かす方法を模索してたっぽい
Serverless chromeも検討した GitHub - adieuadieu/serverless-chrome: 🌐 Run headless Chrome/Chromium on AWS Lambda (maybe Azure, & GCP later)
ただ今回スクレイピングをするにあたってセキュアな情報を扱う必要があったためやはり公式じゃないものは使いたくなかった、かつリポジトリのメンテが最近されてなさそうだったので使用するのはやめておいた またこういったものを使ったとき使用するchromeブラウザのアップデートが自分でできないというところも気になる スクレイピングをプロダクション環境で使うのなら、ブラウザの脆弱性が見つかったときすぐパッチを当てて対応できるような状態にはしておきたい あとserverless-chromeだとchromeブラウザ限定になってしまうのも引っかかった 現在ではほとんどなくなってきているけど稀にInternetExplolerしか対応してないページもあるかもしれない(そんなページもうほぼないと思うしそんなサイトは相手にしなくていい気もするけど) まあそうじゃなくともChrome系でうまくスクレイピングできなかった時にFirefoxなど別の手段が選べるような状況にはしておきたかった 同じような理由でpuppeteerは使うのをやめた chromeチームがメンテしてるので公式という安心感はあるけどブラウザが縛られてしまう なので今回はwebDriver使っている
AWS Lambdaにデプロイするにあたってアップロードの上限サイズが有る スクレイピングのアプリをtypescriptで書いているがnode_modulesとかもあげようとすると普通に上限に引っかかる? 何か圧縮する方法があったのだろうか?ちょっと調べられていない
そういった事もあって結局AWS Lambdaの使用はやめることにした
ちょっと他の日のログをまとめるのがめんどいのでこれだけにしとく