酷!學園

技術討論區 => 程式討論版 => Python程式設計討論區 => 主題作者是: sj2018 於 2018-10-31 23:01

主題: 求救:urllib2 進不了網站(非普級網站,如有不恰當請刪除)
作者: sj20182018-10-31 23:01
我的script:

def get_jlib_url(code):
    req = urllib2.Request("http://www.javlibrary.com/en/vl_searchbyid.php?keyword=" + code, headers={'User-Agent' : "Magic Browser"})
    html = urllib2.urlopen(req)
    time.sleep(wait_time)

試圖進入http://www.javlibrary.com

出現錯誤:

HTTPError: HTTP Error 503: Service Temporarily Unavailable

請問要怎麼bybass 網站的browser checking?



主題: Re: 求救:urllib2 進不了網站(非普級網站,如有不恰當請刪除)
作者: asako2018-11-01 10:19
User-Agent 改成 IE ?
主題: Re: 求救:urllib2 進不了網站(非普級網站,如有不恰當請刪除)
作者: dark2018-11-01 18:53
http://www.javlibrary.com/en/vl_searchbyid.php?keyword=
只是一個中繼頁面
最後出現的頁面
http://www.javlibrary.com/en/?v=javl123456
後面 6 碼 , 就是 vl_searchbyid.php 中的 javascript 運算結果

研究那段 javascript 就能知道 keyword => 123456 是怎麼做的
不過小弟解不出來 ...
丟給 phantomjs 也沒跑出來

不過 phantomjs 跑 4 秒(那頁中setTimeout=4000)
卻跟等待其他秒數結果不同 , 多出另一個中繼頁面

有時間的話再來猜猜看什麼手法 ...

主題: Re: 求救:urllib2 進不了網站(非普級網站,如有不恰當請刪除)
作者: dark2018-11-01 23:05
http://blog.zengrong.net/post/2366.html

有空再來研究 ... 您先加油