楽しいだけで十分です

複数のWebサイトをスクレイピングして、共通のフォーマットでファイル出力するscraping2fileを作った

複数のWebサイトをスクレイピングして、共通のフォーマットでファイル出力するscraping2fileを作りました。

なぜ作ったのか

自分の日常作業を効率化がしたかったからです。複数のWebサイトから10件前後のデータを収集する作業があり、元々は手作業でやってました。しかし、手作業でやるのは辛いなあと感じて、効率化できるツールが欲しかったのです。実際に使ってみて、作業の時間が半分くらいになったので、満足してます。

どんなことができるのか

YAMLファイルでhostnameごとに取得する要素のSelectorを記述すると、その設定を元にPuppeteerが要素のテキストを取得するので、取得した結果をファイルに出力してます。加えて、Selectorで取得しただけだとテキストが欲しい形態になってない場合も多いので、SelectorごとにCallback関数も設定できるようにしてあります。詳しい使い方は、scraping2fileのREADMEを参照いただければ。

自分の問題を解決するために作ったツールですが、処理はいくらか汎用性があると思うので、機会があれば使ってみてください。

yinm

WRITTEN BY yinm

I'm a Frontend Engineer.