Python スクレイピング

lxml スクレイピングファイル動作確認

ここまでで、lxml スクレイピングファイル sc_rape_by_lxml.py を作成する事ができました。
引き続き、このファイルの動作確認をします。 まず先に sc_re_hd_enc.py ファイルを実行しておきます。
まだの方は
Python スクレイピング概要 を読んで sc_re_hd_enc.py を実行し sc_dp.html ファイルを作成してください。
それでは sc_rape_by_lxml.py ファイルを実行してみましょう。
Ubuntu ディスクトップにある □>_ アイコンから端末画面を開き、
public_html ディレクトリ
に移動します。
yamada@ubuntu-20:~$ cd public_html
yamada@ubuntu-20:~/public_html$ python3 sc_rape_by_lxml.py
として確認します。


  [{'url': 'https://gihyo.jp/dp/ebook/2020/978-4-297-11683-5',
  'title': 'ITエンジニアのやさしい法律Q&A 著作権・開発契約・労働関係・契約書で揉めないための勘どころ'},
   {'url': 'https://gihyo.jp/dp/ebook/2020/978-4-297-11679-8', 
  'title': '情報処理技術者試験 要点確認これだけ! 応用情報技術者【午前】ポケット○×問題集'},
   {'url': 'https://gihyo.jp/dp/ebook/2020/978-4-297-11711-5',
  'title': '[改訂第4版]基礎からわかる情報リテラシー'},
   {'url': 'https://gihyo.jp/dp/ebook/2020/978-4-297-11709-2',
  'title': ・・・・・'},
   ~~~~~~

のように表示されれば OK です。
WEB で表示する前にエラ-がないことを確認してください。
エラ-がなければ、WEB でも表示してみましょう。
ブラウザのアドレスバーに
http://v-host.jp/sc_rape_by_lxml.py
または

http://localhost:8080/~yamada/sc_rape_by_lxml.py

と入力して、画面に同じように表示されることを確認してください。
ただし、改行がうまく表示されません。
ずらずらと表示されます。

ここまでで、lxml スクレイピングファイル sc_rape_by_lxml.py の動作確認をする事ができました。
スクレイピングについてはまだまだやりたいことがあるのですが一旦終りにします。


  • lxml によるスクレイピング に戻る
  • 正規表現スクレイピング抜粋デ-タファイル確認 に戻る
  • 抜粋したデ-タをファイル保存 に戻る
  • 正規表現スクレイピングファイル作成 に戻る
  • Web ペ-ジから必要デ-タを抜粋 に戻る
  • Python スクレイピング概要 に戻る
  • 70VPS に戻る