作者 主題: 求救:urllib2 進不了網站(非普級網站,如有不恰當請刪除)  (閱讀 1036 次)

0 會員 與 1 訪客 正在閱讀本文。

sj2018

  • 可愛的小學生
  • *
  • 文章數: 1
    • 檢視個人資料
我的script:

def get_jlib_url(code):
    req = urllib2.Request("http://www.javlibrary.com/en/vl_searchbyid.php?keyword=" + code, headers={'User-Agent' : "Magic Browser"})
    html = urllib2.urlopen(req)
    time.sleep(wait_time)

試圖進入http://www.javlibrary.com

出現錯誤:

HTTPError: HTTP Error 503: Service Temporarily Unavailable

請問要怎麼bybass 網站的browser checking?




asako

  • 活潑的大學生
  • ***
  • 文章數: 235
    • 檢視個人資料
User-Agent 改成 IE ?

dark

  • 俺是博士!
  • *****
  • 文章數: 1566
    • 檢視個人資料
http://www.javlibrary.com/en/vl_searchbyid.php?keyword=
只是一個中繼頁面
最後出現的頁面
http://www.javlibrary.com/en/?v=javl123456
後面 6 碼 , 就是 vl_searchbyid.php 中的 javascript 運算結果

研究那段 javascript 就能知道 keyword => 123456 是怎麼做的
不過小弟解不出來 ...
丟給 phantomjs 也沒跑出來

不過 phantomjs 跑 4 秒(那頁中setTimeout=4000)
卻跟等待其他秒數結果不同 , 多出另一個中繼頁面

有時間的話再來猜猜看什麼手法 ...


dark

  • 俺是博士!
  • *****
  • 文章數: 1566
    • 檢視個人資料