ablog

不器用で落着きのない技術者のメモ

Python ではてなフォトライフの RSS をスクレイピングして最後に画像がアップされた時刻を取得する

はてなフォトライフRSSスクレイピングして最後に画像がアップされた時刻を取得する Python スクリプト

<item rdf:about="http://f.hatena.ne.jp/yohei-a/20161211091424">

...

<dc:date>2016-12-11T09:14:24+09:00</dc:date> ★これの最大値を取得する
</item>
<item rdf:about="http://f.hatena.ne.jp/yohei-a/20161211091423">

...

<dc:date>2016-12-11T09:14:23+09:00</dc:date>

...

</item>
<item rdf:about="http://f.hatena.ne.jp/yohei-a/20161209080817">

...

<dc:date>2016-12-09T08:08:17+09:00</dc:date>

...

</item>
#!/usr/bin/env python
# -*- coding: utf-8 -*-

import urllib2
from bs4 import BeautifulSoup
from datetime import datetime

html = urllib2.urlopen('http://f.hatena.ne.jp/yohei-a/rss')
soup = BeautifulSoup(html, "html.parser")
ts_list = []

for item in soup.find_all("dc:date"):
	ts_str = item.contents[0]
	ts_date = datetime.strptime(ts_str[0:18], '%Y-%m-%dT%H:%M:%S')
	ts_list.append(ts_date)

print max(ts_list)
  • 実行結果
$ python max_dc_date.py 
2016-12-11 09:14:02