一区二区久久-一区二区三区www-一区二区三区久久-一区二区三区久久精品-麻豆国产一区二区在线观看-麻豆国产视频

PHP 采集程序原理分析篇

苦想了幾天,終于弄明白了里面的道理。在這里寫(xiě)出來(lái),請(qǐng)高手指正。
采集程序的思路很簡(jiǎn)單,無(wú)非就是先打一個(gè)頁(yè)面,一般都是列表頁(yè),取得里面全部鏈接的地址,然后打開(kāi)逐條鏈接,尋找我們感興趣的東西,如果找到,就把它入庫(kù)或別的處理。下面以一個(gè)很簡(jiǎn)單的例子來(lái)說(shuō)說(shuō)。

首先確定一個(gè)采集頁(yè),一般就是列表面了。這里目標(biāo)是:http://www.jb51.NET/article/11/index.htm。這是一個(gè)列表頁(yè),我們的目的就是采集這個(gè)列表頁(yè)上全部的文章。

有列表頁(yè)了,第一步先打開(kāi)它,把它的內(nèi)容納入到我們的程序中來(lái)。一般用fopen或是file_get_contents這兩個(gè)函數(shù),我們這里用fopen作例子。怎么打開(kāi)它呢?很簡(jiǎn)單:$source=fopen("http://www.jb51.NET/article/11/index.htm",'r');實(shí)際上已經(jīng)把內(nèi)容納入到我們的程序中來(lái)了。注意得到的$source是一個(gè)資源,不是可處理的文本,所以再用函數(shù)fread將內(nèi)容讀到一個(gè)變量中,這次就是真正的可編輯的文本了。例子:
$content=fread($source,99999);后面的數(shù)字表示字節(jié)數(shù),填個(gè)大的就行。你用file_put_contents將$content寫(xiě)入到一個(gè)文本文件,可以看出里面的內(nèi)容其實(shí)就是網(wǎng)頁(yè)的源碼。得到了網(wǎng)頁(yè)的源碼,我們就要分析里面的文章鏈接地址,這里要用到正則表達(dá)式了,[推薦正則表達(dá)式教程(http://www.jb51.NET/article/7/all/545.1.htm)]。通過(guò)查看源代碼,我們可以看到里面文章的鏈接地址全是這個(gè)樣子<div class="in_arttitle"><a href="http://www.jb51.NET/article/10/all/273.1.htm">  將數(shù)據(jù)庫(kù)連接代碼封裝在函數(shù)里,在需要讀取時(shí)調(diào)用..</a>
我們就可以寫(xiě)正則表達(dá)式了。$count=preg_match_all("/<div class=/"in_arttitle/"><a/shref=/"(.+?)/">(.+?)<//a>/",$content,$art_list);
其中數(shù)組$art_list[1][$s]里面包含的就是某個(gè)文章的鏈接地址。而$art_list[2][$s]包含的就是某一文章的標(biāo)題。到了這一步就可以算成功了一半了。
接著用for循環(huán)依次打每個(gè)鏈接,然后像取得標(biāo)題一樣的方法取得內(nèi)容即可。以上這些和我在網(wǎng)上找的教程都差不多,但是到了這個(gè)for循環(huán)網(wǎng)上的教程可就差勁,還沒(méi)找到一篇可以說(shuō)清這個(gè)事的文章,剛開(kāi)始我是用js來(lái)幫助循環(huán)的,還是用實(shí)例說(shuō)吧,剛開(kāi)始我是這樣做的:
for($i=0;$i<20;4i++ {
中間就是采集內(nèi)容的部分了,省略了
采集了一頁(yè),肯定要采集再一頁(yè)啊
可是再用fopen打開(kāi)鏈接時(shí)就不行了。請(qǐng)求失敗什么的,用js也不行,最后才知道要用這句echo "<META HTTP-EQUIV=REFRESH CONTENT='0;URL=aa.php?id=1'>";其中aa.php就是我們的程序的文件名, id后面的數(shù)字就可以幫助我們實(shí)現(xiàn)循環(huán),采集多個(gè)頁(yè)面。這就是能真正循環(huán)起來(lái)的關(guān)鍵
}
腦子有點(diǎn)難受,寫(xiě)得有點(diǎn)亂,將就著看吧,在高手看來(lái)這可能沒(méi)什么大不了的,可是對(duì)于我等菜鳥(niǎo)來(lái)說(shuō),實(shí)在是很有幫助。

php技術(shù)PHP 采集程序原理分析篇,轉(zhuǎn)載需保留來(lái)源!

鄭重聲明:本文版權(quán)歸原作者所有,轉(zhuǎn)載文章僅為傳播更多信息之目的,如作者信息標(biāo)記有誤,請(qǐng)第一時(shí)間聯(lián)系我們修改或刪除,多謝。

主站蜘蛛池模板: 在线视频黄色 | 九九精品在线视频 | 怡红院精品视频 | 91在线视频免费播放 | 日本亚洲精品 | 福利视频一区青娱 | 青青草色久综合网 | 国产福利2021最新在线观看 | 涩五月婷婷 | 91九色视频在线观看 | 黄网在线观看网址入口 | 51国产黑色丝袜高跟鞋 | 日本道精品一区二区三区 | 天堂网站天堂小说 | 欧美日一区二区三区 | 97高清国语自产拍中国大陆 | 99久久免费国产特黄 | 伊人久久网站 | 成人综合网站 | 全部免费69堂在线视频 | 5252色欧美在线男人的天堂 | 国产成人最新毛片基地 | 99久久伊人 | 中文字幕视频一区 | 在线亚洲网站 | 影音先锋中文在线 | 国内自产拍自a免费毛片 | 天天插伊人| 欧美视频福利 | 男女激情视频国产免费观看 | 欧美人与z0z0xxxx | 韩国理论福利片午夜 | 精品网站 | 视频亚洲一区 | 亚洲伊人久久大香线蕉苏妲己 | 美女胸又www又黄的网站视频 | 亚洲精品国产成人 | vr欧美乱强伦xxxxx | 欧美在线精品永久免费播放 | 国产资源在线视频 | 亚洲视频免费一区 |