Python スクレイピング

正規表現スクレイピング抜粋デ-タファイル確認

ここまでで、正規表現スクレイピング抜粋デ-タファイル
sc_rape_re-4.py
を作成しました。
引き続き、このファイルの動作確認をしていきます。
まず先に sc_re_hd_enc.py ファイルを実行しておきます。
まだの方は
Python スクレイピング概要 を読んで sc_re_hd_enc.py を実行し sc_dp.html ファイルを作成してください。
それでは sc_rape_re-4.py ファイルを実行してみましょう。
Ubuntu ディスクトップにある □>_ アイコンから端末画面を開き、
public_html ディレクトリ
に移動します。
yamada@ubuntu-20:~$ cd public_html
yamada@ubuntu-20:~/public_html$ python3 sc_rape_re-4.py
として確認します。


  json file 確認
  [{'title':
   'ITエンジニアのやさしい法律Q&A 著作権・開発契約・労働関係・契約書で揉めないための勘どころ',
   'url': 'https://gihyo.jp/dp/ebook/2020/978-4-297-11683-5'},
  {'title':
   '情報処理技術者試験 要点確認これだけ! 応用情報技術者【午前】ポケット○×問題集',
   'url': 'https://gihyo.jp/dp/ebook/2020/978-4-297-11679-8'},
  {'title': ・・・・・・・・

のように表示されれば OK です。
WEB で表示する前にエラ-がないことを確認してください。
エラ-がなければ、WEB でも表示してみましょう。
ブラウザのアドレスバーに
http://v-host.jp/sc_rape_re-4.py
または

http://localhost:8080/~yamada/sc_rape_re-4.py

と入力して、画面に同じように表示されることを確認してください。
ただし、改行がうまく表示されません。
ずらずらと表示されます。

スクレイピング抜粋 CSV ファイル確認

次に、スクレイピング抜粋 CSV ファイルができているか確認します。 yamada@ubuntu-20:~/public_html$ ls -l
とし
sc_books.csv
があることを確認します。
ついでに
sc_books.json
があることも確認できます。
そして、ゲスト OS Ubuntu のなかの共有フォルダ
/home/yamada/public_html
は Wimdows OS の 共有フォルダ c:\vb_public_html にリンクしています。
詳細は ユ-ザ-ごとの公開ディレクトリを用意する を読んでみてください。
よって、Wimdows OS の 共有フォルダ c:\vb_public_html にいき
sc_books.csv をエクセルで開くと
URL と書籍名タイトルが整理されて表示されます。

ここまでで、 正規表現スクレイピング抜粋デ-タファイル sc_rape_re-4.py の動作確認をする事ができました。
引き続き lxml によるスクレイピングスクレイピングに進みます。


  • lxml によるスクレイピング に進む
  • 抜粋したデ-タをファイル保存 に戻る
  • 正規表現スクレイピングファイル作成 に戻る
  • Web ペ-ジから必要デ-タを抜粋 に戻る
  • Python スクレイピング概要 に戻る
  • 70VPS に戻る