作者 主題: 網址解析問題  (閱讀 26080 次)

0 會員 與 1 訪客 正在閱讀本文。

stlee

  • 鑽研的研究生
  • *****
  • 文章數: 817
    • 檢視個人資料
網址解析問題
« 於: 2007-04-21 18:32 »
請問如以下網址(本站網址)
phorum.study-area.org/index.php

當在程式中以
代碼: [選擇]

hp=gethostbyname("phorum.study-area.org");
mamcpy(&local_addr.sin_addr.s_addr,hp->h_addr,4);
in.s_addr=local_addr.sin_addr.s_addr;
printf("IP=%s\n",inet_ntoa(in));

可以顯示出其IP為203.68.102.2xx
(不知道對不對,不過用yahoo的倒是與ping出來的結果一樣)

現在的問題是當以gethostbyname("phorum.study-area.org/index.php");
時則出現:"程式記憶體區段錯誤"的訊息

所以想請問以C語言來說該如何能進一步取得網站上的資源以做進一步分析
或是以其他語言來說,是如何去取得網站上的資料的(其步驟為何)

ps.不是要拿來做壞事的,純粹是要抓資料下來分析用的

非常之感謝,感恩 :D
程式是人寫的,別讓工具的限制成為您想像力的極限
~程式中最重要的部份應該是註解而不是程式碼,這是因為解讀註解一定比解讀程式碼簡單
~程式寫好後約一個月就會忘的差不多了,所以花點時間把註解寫好至少能讓自己(或別人)看的懂當初在寫什麼

Yamaka

  • 俺是博士!
  • *****
  • 文章數: 4913
    • 檢視個人資料
    • http://www.ecmagic.com
網址解析問題
« 回覆 #1 於: 2007-04-21 19:06 »
用 curl ??


如果是用 PHP 的話,

還可以直接用 fsocketopen 建立連線,

然後...就開始抓資料嘍~~

stlee

  • 鑽研的研究生
  • *****
  • 文章數: 817
    • 檢視個人資料
網址解析問題
« 回覆 #2 於: 2007-04-21 19:48 »
curl--->是什麼??

在c的標準函數庫裡面很像沒有類似 fsocketopen的功能,所以想說靠分析網址的字串

因為"phorum.study-area.org"在建立後應該可以開始依此IP接收資料了

沒意外的話應該是接收到該網址的"首頁"

主要就是在遇到/index.php的/時應該是指一個目錄下的一個檔案

要如何讓該IP所在的伺服器可以傳/index.php這一個檔案(資料)給我???

比如本回文的phorum.study-area.org/viewtopic.php?p=230032#230032

在連上phorum.study-area.org後應如何取得/viewtopic.php?p=230032#230032的資料

是不是還要傳什麼東西給他?
程式是人寫的,別讓工具的限制成為您想像力的極限
~程式中最重要的部份應該是註解而不是程式碼,這是因為解讀註解一定比解讀程式碼簡單
~程式寫好後約一個月就會忘的差不多了,所以花點時間把註解寫好至少能讓自己(或別人)看的懂當初在寫什麼

kenduest

  • 酷!學園 學長們
  • 俺是博士!
  • *****
  • 文章數: 3675
    • 檢視個人資料
    • http://kenduest.sayya.org
Re: 網址解析問題
« 回覆 #3 於: 2007-04-21 23:14 »
引述: "stlee"
請問如以下網址(本站網址)
phorum.study-area.org/index.php

當在程式中以
代碼: [選擇]

hp=gethostbyname("phorum.study-area.org");
mamcpy(&local_addr.sin_addr.s_addr,hp->h_addr,4);
in.s_addr=local_addr.sin_addr.s_addr;
printf("IP=%s\n",inet_ntoa(in));

可以顯示出其IP為203.68.102.2xx
(不知道對不對,不過用yahoo的倒是與ping出來的結果一樣)

現在的問題是當以gethostbyname("phorum.study-area.org/index.php");
時則出現:"程式記憶體區段錯誤"的訊息


你似乎沒有檢查傳回值是否為 NULL 就直接複製 ?

--
I am kenduest - 小州

my website: http://kenduest.sayya.org/

stlee

  • 鑽研的研究生
  • *****
  • 文章數: 817
    • 檢視個人資料
網址解析問題
« 回覆 #4 於: 2007-04-23 01:34 »
很像解決了?_?

為什麼說很像呢,因為沒有可供比對的對照組@@!

解決方法說來也滿好笑,因為想說既然是要向伺服器要求資料所以必須向伺服器說"喂!請傳資料給我"

那就是要發一個封包給他啦,所以找了以前買的一本書(排版很爛)關於Web的部分,裡面的範例

指出一個字串"GET/HTTP/1.0\n"

把這個字串送到以gethostbyname("tw.yahoo.com")由DNS取得的IP及對到第80PORT後

就開始以read()接收資料,收到一堆YAHOO首頁的東西,看來還有得忙了(資料分析函數)

不知在其他語言是否也是傳"GET/HTTP/1.0\n"給伺服器開始接收資料的

那/viewtopic.php?p=230032#230032 這是怎麼處理法,也是就這樣傳給伺服器然後開始接收資料嗎???

而"GET/HTTP/1.0\n"書上是說這是HTTP協定的基本格式,看來要買一本關於HTTP協定的書了

能請各位大大推薦一本嗎^^!謝謝,感恩
程式是人寫的,別讓工具的限制成為您想像力的極限
~程式中最重要的部份應該是註解而不是程式碼,這是因為解讀註解一定比解讀程式碼簡單
~程式寫好後約一個月就會忘的差不多了,所以花點時間把註解寫好至少能讓自己(或別人)看的懂當初在寫什麼

micmic3

  • 俺是博士!
  • *****
  • 文章數: 1692
    • 檢視個人資料
網址解析問題
« 回覆 #5 於: 2007-04-23 11:23 »
要不要去下載 wget 的 source 來看看
http://www.gnu.org/software/wget/

stlee

  • 鑽研的研究生
  • *****
  • 文章數: 817
    • 檢視個人資料
網址解析問題
« 回覆 #6 於: 2007-04-23 14:44 »
唉.....看到小弟心中永遠的痛了--->只有版權宣言有中文的其他都是有看沒有懂@@!

細漢不讀書,大漢偷牽牛啊!啊!啊!啊!啊!
程式是人寫的,別讓工具的限制成為您想像力的極限
~程式中最重要的部份應該是註解而不是程式碼,這是因為解讀註解一定比解讀程式碼簡單
~程式寫好後約一個月就會忘的差不多了,所以花點時間把註解寫好至少能讓自己(或別人)看的懂當初在寫什麼

stlee

  • 鑽研的研究生
  • *****
  • 文章數: 817
    • 檢視個人資料
網址解析問題
« 回覆 #7 於: 2007-04-23 14:57 »
哎呀呀呀....好站(讚)!!!記起來先
http://eoffice.im.fju.edu.tw/phpbb/viewtopic.php?t=2093&postdays=0&postorder=asc&start=0

這個也不錯,不過說明短了點
http://www.try.idv.tw/CourseSite/jsp/course/1-1.html

"檢索命令"的說明文章(很基本的觀念)
http://st2.fju.edu.tw/~b9110002/Page1.htm
程式是人寫的,別讓工具的限制成為您想像力的極限
~程式中最重要的部份應該是註解而不是程式碼,這是因為解讀註解一定比解讀程式碼簡單
~程式寫好後約一個月就會忘的差不多了,所以花點時間把註解寫好至少能讓自己(或別人)看的懂當初在寫什麼

elleryq

  • 區域板主
  • 鑽研的研究生
  • *****
  • 文章數: 908
  • 性別: 男
    • 檢視個人資料
    • Thinking more...
網址解析問題
« 回覆 #8 於: 2007-04-23 17:58 »
可以參考 http protocol
Hypertext Transfer Protocol -- HTTP/1.1
Plan your work, then work your plan.
我的首頁:http://blog.elleryq.idv.tw
351899by http://counter.li.org

hoyo

  • 榮譽博士
  • 俺是博士!
  • *****
  • 文章數: 4046
  • 性別: 男
  • 有需要的時候,學習就不會分階段。
    • 檢視個人資料
    • 樂咖黑電腦學習網
網址解析問題
« 回覆 #9 於: 2007-04-23 18:11 »
引述: "stlee"
哎呀呀呀....好站(讚)!!!記起來先
http://eoffice.im.fju.edu.tw/phpbb/viewtopic.php?t=2093&postdays=0&postorder=asc&start=0

這個也不錯,不過說明短了點
http://www.try.idv.tw/CourseSite/jsp/course/1-1.html

"檢索命令"的說明文章(很基本的觀念)
http://st2.fju.edu.tw/~b9110002/Page1.htm


在實作中一定要注意的就是,每個 web server 『實作』出來都不相同,
雖然都有些共同點,例如在 HEAD 內都需要宣告 host ,不過其他的宣告宣告了有沒有作用就要看是不是有『實作』了。

======================

原來現在大學就教這個啊....

念大學真好有人可以問,HTTP PROTOCOL 我是最近自己 TRY 的,

唸書真好... = ="
受人與魚,不如授人與漁
上海自來水來自海上;倫敦好奇人奇好敦倫

stlee

  • 鑽研的研究生
  • *****
  • 文章數: 817
    • 檢視個人資料
網址解析問題
« 回覆 #10 於: 2007-04-23 18:34 »
引述: "hoyo"
引述: "stlee"
哎呀呀呀....好站(讚)!!!記起來先
http://eoffice.im.fju.edu.tw/phpbb/viewtopic.php?t=2093&postdays=0&postorder=asc&start=0

這個也不錯,不過說明短了點
http://www.try.idv.tw/CourseSite/jsp/course/1-1.html

"檢索命令"的說明文章(很基本的觀念)
http://st2.fju.edu.tw/~b9110002/Page1.htm


在實作中一定要注意的就是,每個 web server 『實作』出來都不相同,
雖然都有些共同點,例如在 HEAD 內都需要宣告 host ,不過其他的宣告宣告了有沒有作用就要看是不是有『實作』了。

======================

原來現在大學就教這個啊....

念大學真好有人可以問,HTTP PROTOCOL 我是最近自己 TRY 的,

唸書真好... = ="


您指的是因為版本差異所造成的問題嗎???
程式是人寫的,別讓工具的限制成為您想像力的極限
~程式中最重要的部份應該是註解而不是程式碼,這是因為解讀註解一定比解讀程式碼簡單
~程式寫好後約一個月就會忘的差不多了,所以花點時間把註解寫好至少能讓自己(或別人)看的懂當初在寫什麼

stlee

  • 鑽研的研究生
  • *****
  • 文章數: 817
    • 檢視個人資料
網址解析問題
« 回覆 #11 於: 2007-04-23 18:38 »
引述: "elleryq"
可以參考 http protocol
Hypertext Transfer Protocol -- HTTP/1.1

真不錯^^!能在請問一個重要的問題嗎?

由於小弟英文實在是不行,不過聽說可以"丟"到翻譯的網站去給他翻出來(能翻個50%就很想偷笑了)

所以能教一下"怎麼丟"嗎???謝謝,感恩
程式是人寫的,別讓工具的限制成為您想像力的極限
~程式中最重要的部份應該是註解而不是程式碼,這是因為解讀註解一定比解讀程式碼簡單
~程式寫好後約一個月就會忘的差不多了,所以花點時間把註解寫好至少能讓自己(或別人)看的懂當初在寫什麼

hoyo

  • 榮譽博士
  • 俺是博士!
  • *****
  • 文章數: 4046
  • 性別: 男
  • 有需要的時候,學習就不會分階段。
    • 檢視個人資料
    • 樂咖黑電腦學習網
網址解析問題
« 回覆 #12 於: 2007-04-23 18:47 »
引述: "stlee"
引述: "hoyo"
引述: "stlee"
哎呀呀呀....好站(讚)!!!記起來先
http://eoffice.im.fju.edu.tw/phpbb/viewtopic.php?t=2093&postdays=0&postorder=asc&start=0

這個也不錯,不過說明短了點
http://www.try.idv.tw/CourseSite/jsp/course/1-1.html

"檢索命令"的說明文章(很基本的觀念)
http://st2.fju.edu.tw/~b9110002/Page1.htm


在實作中一定要注意的就是,每個 web server 『實作』出來都不相同,
雖然都有些共同點,例如在 HEAD 內都需要宣告 host ,不過其他的宣告宣告了有沒有作用就要看是不是有『實作』了。

======================

原來現在大學就教這個啊....

念大學真好有人可以問,HTTP PROTOCOL 我是最近自己 TRY 的,

唸書真好... = ="


您指的是因為版本差異所造成的問題嗎???


算是也不算是....

重點就是規則 (RFC) 有沒有遵守 (實作出來) 的問題
受人與魚,不如授人與漁
上海自來水來自海上;倫敦好奇人奇好敦倫

hoyo

  • 榮譽博士
  • 俺是博士!
  • *****
  • 文章數: 4046
  • 性別: 男
  • 有需要的時候,學習就不會分階段。
    • 檢視個人資料
    • 樂咖黑電腦學習網
網址解析問題
« 回覆 #13 於: 2007-04-23 18:48 »
引述: "stlee"
引述: "elleryq"
可以參考 http protocol
Hypertext Transfer Protocol -- HTTP/1.1

真不錯^^!能在請問一個重要的問題嗎?

由於小弟英文實在是不行,不過聽說可以"丟"到翻譯的網站去給他翻出來(能翻個50%就很想偷笑了)

所以能教一下"怎麼丟"嗎???謝謝,感恩


用 Google 神吧

http://translate.google.com/translate?hl=zh-TW&sl=en&u=接網址
=
http://translate.google.com/translate?hl=zh-TW&sl=en&u=http://www.w3.org/Protocols/rfc2616/rfc2616.html
受人與魚,不如授人與漁
上海自來水來自海上;倫敦好奇人奇好敦倫

stlee

  • 鑽研的研究生
  • *****
  • 文章數: 817
    • 檢視個人資料
網址解析問題
« 回覆 #14 於: 2007-04-23 19:18 »
感謝hoyo神....我拜
程式是人寫的,別讓工具的限制成為您想像力的極限
~程式中最重要的部份應該是註解而不是程式碼,這是因為解讀註解一定比解讀程式碼簡單
~程式寫好後約一個月就會忘的差不多了,所以花點時間把註解寫好至少能讓自己(或別人)看的懂當初在寫什麼

stlee

  • 鑽研的研究生
  • *****
  • 文章數: 817
    • 檢視個人資料
網址解析問題
« 回覆 #15 於: 2007-04-23 19:33 »
有把原碼貼出來了....(不好意思還要開電腦所以用連結吧)
http://eoffice.im.fju.edu.tw/phpbb/viewtopic.php?p=17420#17420

抓下來的結果是這樣子的
http://eoffice.im.fju.edu.tw/phpbb/viewtopic.php?p=17421#17421

謝謝,感恩
程式是人寫的,別讓工具的限制成為您想像力的極限
~程式中最重要的部份應該是註解而不是程式碼,這是因為解讀註解一定比解讀程式碼簡單
~程式寫好後約一個月就會忘的差不多了,所以花點時間把註解寫好至少能讓自己(或別人)看的懂當初在寫什麼

elleryq

  • 區域板主
  • 鑽研的研究生
  • *****
  • 文章數: 908
  • 性別: 男
    • 檢視個人資料
    • Thinking more...
網址解析問題
« 回覆 #16 於: 2007-04-24 08:33 »
如果只是要作簡單的抓檔案,其實那篇不太需要翻譯,主要是拿來參考用的。

最快的方法就是用 wireshark 去監聽網路封包,然後你連上網站去抓檔案,看browser怎麼丟,然後再參考那篇 RFC,這樣是最快的了~

我是覺得直接用 curl library 會比較快。
Plan your work, then work your plan.
我的首頁:http://blog.elleryq.idv.tw
351899by http://counter.li.org

stlee

  • 鑽研的研究生
  • *****
  • 文章數: 817
    • 檢視個人資料
網址解析問題
« 回覆 #17 於: 2007-04-24 15:34 »
引述: "elleryq"
如果只是要作簡單的抓檔案,其實那篇不太需要翻譯,主要是拿來參考用的。

最快的方法就是用 wireshark 去監聽網路封包,然後你連上網站去抓檔案,看browser怎麼丟,然後再參考那篇 RFC,這樣是最快的了~

我是覺得直接用 curl library 會比較快。


謝謝!!

我把需求講一下好了

現在是要寫一個應用程式,可以去抓取一些特定網站的資料

這些特定網站的資料是會隨時變動(更新)的,可能會一天更新個幾十次都是很正常的

所以就要隨時將這些資料抓下來進行分析比對(幫客戶爭取利益)

現在的問題就是,已經可以取得"首頁"的資料,但真正的資料所在就是在網址後面的那些字串所代表的"資料夾"內

所以現在的感覺就是,用網址進行DNS解析出IP可以用發一個"GET/HTTP/1.0\n"去取得首頁的資料

那麼資料夾裡面的資料不就是在網址字串的網址後面的字串分析出來的嗎

還有,一般我們在進入首頁後不是有一些超連結,以滑鼠點該超連結字串後即可進入該資料夾或其他網站

現在就是"以滑鼠點該超連結字串"後瀏覽器是發送何種格式的字串告訴伺服器"請給我XX的資料"

因為既然"GET/HTTP/1.0\n"是告訴伺服器"喂!請給我資料"那麼應該就有"請給我XX的資料"這樣的格式封包吧?_?

現在想法應該是從分析該首頁的[標籤]開始找出何者是超連結字串.....找出來以後呢???

這個動作該怎麼做?????(簡單講現在是想先寫個網站內資源探索的殼出來)

對了...curl library函數庫不太了解,能說明一下嗎???非常感謝^^!
程式是人寫的,別讓工具的限制成為您想像力的極限
~程式中最重要的部份應該是註解而不是程式碼,這是因為解讀註解一定比解讀程式碼簡單
~程式寫好後約一個月就會忘的差不多了,所以花點時間把註解寫好至少能讓自己(或別人)看的懂當初在寫什麼

hoyo

  • 榮譽博士
  • 俺是博士!
  • *****
  • 文章數: 4046
  • 性別: 男
  • 有需要的時候,學習就不會分階段。
    • 檢視個人資料
    • 樂咖黑電腦學習網
網址解析問題
« 回覆 #18 於: 2007-04-24 15:58 »
引述: "stlee"
引述: "elleryq"
如果只是要作簡單的抓檔案,其實那篇不太需要翻譯,主要是拿來參考用的。

最快的方法就是用 wireshark 去監聽網路封包,然後你連上網站去抓檔案,看browser怎麼丟,然後再參考那篇 RFC,這樣是最快的了~

我是覺得直接用 curl library 會比較快。


謝謝!!

我把需求講一下好了

現在是要寫一個應用程式,可以去抓取一些特定網站的資料

這些特定網站的資料是會隨時變動(更新)的,可能會一天更新個幾十次都是很正常的

所以就要隨時將這些資料抓下來進行分析比對(幫客戶爭取利益)

現在的問題就是,已經可以取得"首頁"的資料,但真正的資料所在就是在網址後面的那些字串所代表的"資料夾"內

所以現在的感覺就是,用網址進行DNS解析出IP可以用發一個"GET/HTTP/1.0\n"去取得首頁的資料

那麼資料夾裡面的資料不就是在網址字串的網址後面的字串分析出來的嗎

還有,一般我們在進入首頁後不是有一些超連結,以滑鼠點該超連結字串後即可進入該資料夾或其他網站

現在就是"以滑鼠點該超連結字串"後瀏覽器是發送何種格式的字串告訴伺服器"請給我XX的資料"

因為既然"GET/HTTP/1.0\n"是告訴伺服器"喂!請給我資料"那麼應該就有"請給我XX的資料"這樣的格式封包吧?_?

現在想法應該是從分析該首頁的[標籤]開始找出何者是超連結字串.....找出來以後呢???

這個動作該怎麼做?????(簡單講現在是想先寫個網站內資源探索的殼出來)

對了...curl library函數庫不太了解,能說明一下嗎???非常感謝^^!


這就又要討論到『輪子』這件事了.......

就因為這件事情很複雜,所以有人先想資料交換的格式『XML』,

然後根據 XML 訂出這種更新訊息要通知的『RSS』,

不過 RSS 可以表達以及傳遞的訊息太少,所以後來又搞出『WEB SERVICE』

================

抓 HTML 硬幹不是不行,只是很沒效率,而且網頁改版程式就死....

(這罈酒,是有歷史低~~~~~)
受人與魚,不如授人與漁
上海自來水來自海上;倫敦好奇人奇好敦倫

twu2

  • 管理員
  • 俺是博士!
  • *****
  • 文章數: 5394
  • 性別: 男
    • 檢視個人資料
    • http://blog.teatime.com.tw/1
網址解析問題
« 回覆 #19 於: 2007-04-24 16:05 »
如果對方網站是你們的, 那就把資料弄成 XML 或自訂一個格式來傳送.
如果對方是任意網站, 你沒辦法管到... 那只能自己針對每一個網站來處理. 用 curl 或 wget 把網頁抓下來分析吧. 當然... 如果有人改網頁, 自然就需要改程式了.

stlee

  • 鑽研的研究生
  • *****
  • 文章數: 817
    • 檢視個人資料
網址解析問題
« 回覆 #20 於: 2007-04-24 16:11 »
請問一下,他的網頁改版可能沒他法度,標籤呢,標籤該文字是超連結的標籤應該是屬於協定的範圍

所以標籤應該不是說改就改,所以我只要能分析出標籤然後把標籤後面的字串取出來對應過去這樣可以嗎???

非常感謝^^!
程式是人寫的,別讓工具的限制成為您想像力的極限
~程式中最重要的部份應該是註解而不是程式碼,這是因為解讀註解一定比解讀程式碼簡單
~程式寫好後約一個月就會忘的差不多了,所以花點時間把註解寫好至少能讓自己(或別人)看的懂當初在寫什麼

hoyo

  • 榮譽博士
  • 俺是博士!
  • *****
  • 文章數: 4046
  • 性別: 男
  • 有需要的時候,學習就不會分階段。
    • 檢視個人資料
    • 樂咖黑電腦學習網
網址解析問題
« 回覆 #21 於: 2007-04-24 16:34 »
引述: "stlee"
請問一下,他的網頁改版可能沒他法度,標籤呢,標籤該文字是超連結的標籤應該是屬於協定的範圍

所以標籤應該不是說改就改,所以我只要能分析出標籤然後把標籤後面的字串取出來對應過去這樣可以嗎???

非常感謝^^!


當然可以!

所以硬幹沒人會反對,只是你有辦法對付不嚴謹的 html 語法結構嗎?

正常版
<td></td>
<td></td>

錯亂版
<td>
<td></td>
</td></td></tr>
受人與魚,不如授人與漁
上海自來水來自海上;倫敦好奇人奇好敦倫

twu2

  • 管理員
  • 俺是博士!
  • *****
  • 文章數: 5394
  • 性別: 男
    • 檢視個人資料
    • http://blog.teatime.com.tw/1
網址解析問題
« 回覆 #22 於: 2007-04-24 16:49 »
引述: "stlee"
請問一下,他的網頁改版可能沒他法度,標籤呢,標籤該文字是超連結的標籤應該是屬於協定的範圍
所以標籤應該不是說改就改,所以我只要能分析出標籤然後把標籤後面的字串取出來對應過去這樣可以嗎???


如果網站是別人的, 怎麼會認為你找到的 tag 是對的? 取出該 tag 的文字就是可以對應的?
一個 html 網頁中, 有多少 a tag, td tag, p tag.... 你要怎麼認定你要的是那一部份? tag 是不會變, 不過裡頭的東西會變是正常的.

這個除了寫死在程式中外, 然後別人網頁一改, 就跟著改程式外, 還能有什麼方法?

stlee

  • 鑽研的研究生
  • *****
  • 文章數: 817
    • 檢視個人資料
網址解析問題
« 回覆 #23 於: 2007-04-24 17:06 »
感謝前輩們點出問題癥結點

這點小弟目前無解中=.=a

不過一定會記起來,這樣可以將殼再退一點以期能找出解決方案

說實在的所要分析的網站都是一些(外觀看起來)同質性很高的網站(都是一些職棒相關的啦)

所以要抓的資料都有一定脈絡可循,小弟應該是還可以啦^^!

現在就是像這樣的網址
http://phorum.study-area.org/posting.php?mode=reply&t=45639
前面這裡還可以
http://phorum.study-area.org
後面這裡就不知道該怎麼處理了
/posting.php?mode=reply&t=45639

是指在phorum.study-area.org這個網站內有一個posting.php的程式要傳?mode=reply&t=45639這個參數給他的意思嗎???

那麼
http://www.try.idv.tw/CourseSite/jsp/course/1-1.html
就是在http://www.try.idv.tw這個網站內有個/CourseSite/jsp/course/架構的目錄下有個1-1.html檔案的意思囉???
程式是人寫的,別讓工具的限制成為您想像力的極限
~程式中最重要的部份應該是註解而不是程式碼,這是因為解讀註解一定比解讀程式碼簡單
~程式寫好後約一個月就會忘的差不多了,所以花點時間把註解寫好至少能讓自己(或別人)看的懂當初在寫什麼

hoyo

  • 榮譽博士
  • 俺是博士!
  • *****
  • 文章數: 4046
  • 性別: 男
  • 有需要的時候,學習就不會分階段。
    • 檢視個人資料
    • 樂咖黑電腦學習網
網址解析問題
« 回覆 #24 於: 2007-04-24 17:09 »
引述: "stlee"
感謝前輩們點出問題癥結點

這點小弟目前無解中=.=a

不過一定會記起來,這樣可以將殼再退一點以期能找出解決方案

說實在的所要分析的網站都是一些(外觀看起來)同質性很高的網站(都是一些職棒相關的啦)

所以要抓的資料都有一定脈絡可循,小弟應該是還可以啦^^!

現在就是像這樣的網址
http://phorum.study-area.org/posting.php?mode=reply&t=45639
前面這裡還可以
http://phorum.study-area.org
後面這裡就不知道該怎麼處理了
/posting.php?mode=reply&t=45639

是指在phorum.study-area.org這個網站內有一個posting.php的程式要傳?mode=reply&t=45639這個參數給他的意思嗎???

那麼
http://www.try.idv.tw/CourseSite/jsp/course/1-1.html
就是在http://www.try.idv.tw這個網站內有個/CourseSite/jsp/course/架構的目錄下有個1-1.html檔案的意思囉???


簡單說:

GET / HTTP1.1

那個 / 就是網頁,所以如果要抓 http://phorum.study-area.org/posting.php?mode=reply&t=45639 這個就是填入

GET /posting.php?mode=reply&t=45639 HTTP1.1
受人與魚,不如授人與漁
上海自來水來自海上;倫敦好奇人奇好敦倫

stlee

  • 鑽研的研究生
  • *****
  • 文章數: 817
    • 檢視個人資料
網址解析問題
« 回覆 #25 於: 2007-04-24 17:10 »
引述: "hoyo"
引述: "stlee"
請問一下,他的網頁改版可能沒他法度,標籤呢,標籤該文字是超連結的標籤應該是屬於協定的範圍

所以標籤應該不是說改就改,所以我只要能分析出標籤然後把標籤後面的字串取出來對應過去這樣可以嗎???

非常感謝^^!


當然可以!

所以硬幹沒人會反對,只是你有辦法對付不嚴謹的 html 語法結構嗎?

正常版
<td></td>
<td></td>

錯亂版
<td>
<td></td>
</td></td></tr>


用堆疊的方法,不過</tr>就沒辦法了>"<
程式是人寫的,別讓工具的限制成為您想像力的極限
~程式中最重要的部份應該是註解而不是程式碼,這是因為解讀註解一定比解讀程式碼簡單
~程式寫好後約一個月就會忘的差不多了,所以花點時間把註解寫好至少能讓自己(或別人)看的懂當初在寫什麼

stlee

  • 鑽研的研究生
  • *****
  • 文章數: 817
    • 檢視個人資料
網址解析問題
« 回覆 #26 於: 2007-04-24 17:12 »
引述: "hoyo"
引述: "stlee"
感謝前輩們點出問題癥結點

這點小弟目前無解中=.=a

不過一定會記起來,這樣可以將殼再退一點以期能找出解決方案

說實在的所要分析的網站都是一些(外觀看起來)同質性很高的網站(都是一些職棒相關的啦)

所以要抓的資料都有一定脈絡可循,小弟應該是還可以啦^^!

現在就是像這樣的網址
http://phorum.study-area.org/posting.php?mode=reply&t=45639
前面這裡還可以
http://phorum.study-area.org
後面這裡就不知道該怎麼處理了
/posting.php?mode=reply&t=45639

是指在phorum.study-area.org這個網站內有一個posting.php的程式要傳?mode=reply&t=45639這個參數給他的意思嗎???

那麼
http://www.try.idv.tw/CourseSite/jsp/course/1-1.html
就是在http://www.try.idv.tw這個網站內有個/CourseSite/jsp/course/架構的目錄下有個1-1.html檔案的意思囉???


簡單說:

GET / HTTP1.1

那個 / 就是網頁,所以如果要抓 http://phorum.study-area.org/posting.php?mode=reply&t=45639 這個就是填入

GET /posting.php?mode=reply&t=45639 HTTP1.1

就醬!!!!!!!!!我馬上試......先拜一下hoyo神....我拜
程式是人寫的,別讓工具的限制成為您想像力的極限
~程式中最重要的部份應該是註解而不是程式碼,這是因為解讀註解一定比解讀程式碼簡單
~程式寫好後約一個月就會忘的差不多了,所以花點時間把註解寫好至少能讓自己(或別人)看的懂當初在寫什麼

stlee

  • 鑽研的研究生
  • *****
  • 文章數: 817
    • 檢視個人資料
網址解析問題
« 回覆 #27 於: 2007-04-24 17:39 »
[stlee2@localhost tmp]$ ./go

  Electric Fence 2.2.0 Copyright (C) 1987-1999 Bruce Perens <bruce@perens.com>
IP=203.68.102.2xx addrs=203.68.102.2xx size=4 ...lee_hostname2addr
IP=203.68.102.2xx addrs[]=203.68.102.2xx
目標IP:203.68.102.2xx 埠號:80 命令:GET/viewtopic.php?p=230326#230326/HTTP1.1

自由軟體社群網[stlee2@localhost tmp]$

取到這樣的字串....."自由軟體社群網"

送過來的是這樣的"GET/viewtopic.php?p=230326#230326/HTTP1.1\n"
(剛發現中間不能有空白)

是不是"網蟲太多......"功能的關係阿^^!
程式是人寫的,別讓工具的限制成為您想像力的極限
~程式中最重要的部份應該是註解而不是程式碼,這是因為解讀註解一定比解讀程式碼簡單
~程式寫好後約一個月就會忘的差不多了,所以花點時間把註解寫好至少能讓自己(或別人)看的懂當初在寫什麼

hoyo

  • 榮譽博士
  • 俺是博士!
  • *****
  • 文章數: 4046
  • 性別: 男
  • 有需要的時候,學習就不會分階段。
    • 檢視個人資料
    • 樂咖黑電腦學習網
網址解析問題
« 回覆 #28 於: 2007-04-24 17:46 »
HEAD 加入 REFERER 的宣告,宣告你是 phorum.study-area.org 的一員就可以了

===========

要開刀測試建議使用 yahoo.com ,因為 yahoo.com 比較大方
受人與魚,不如授人與漁
上海自來水來自海上;倫敦好奇人奇好敦倫

stlee

  • 鑽研的研究生
  • *****
  • 文章數: 817
    • 檢視個人資料
網址解析問題
« 回覆 #29 於: 2007-04-24 18:18 »
想再請問一下

關於這方面的知識應該買哪方面的書來看

就是GET,HEAD,REFERER傳給伺服器的命令方面的書

剛剛有去抓YAHOO新聞,不過沒抓到!!

轉向另一目標--->http://eoffice.im.fju.edu.tw/phpbb/viewtopic.php?p=17420#17420 學校的,結果抓一堆亂碼(中文)下來.....就是這個光.就是這個光^^!
程式是人寫的,別讓工具的限制成為您想像力的極限
~程式中最重要的部份應該是註解而不是程式碼,這是因為解讀註解一定比解讀程式碼簡單
~程式寫好後約一個月就會忘的差不多了,所以花點時間把註解寫好至少能讓自己(或別人)看的懂當初在寫什麼