一区二区久久-一区二区三区www-一区二区三区久久-一区二区三区久久精品-麻豆国产一区二区在线观看-麻豆国产视频

基于curl數據采集之單頁面采集函數get_html的使用

這是一個系列 沒辦法在一兩天寫完 所以一篇一篇的發布

大致大綱:

1.curl數據采集系列之單頁面采集函數get_html

2.curl數據采集系列之多頁面并行采集函數get_htmls

3.curl數據采集系列之正則處理函數get _matches

4.curl數據采集系列之代碼分離

5.curl數據采集系列之并行邏輯控制函數web_spider


單頁面采集在數據采集過程中是最常用的一個功能 有時在服務器訪問限制的情況下 只能使用這種采集方式 慢 但是可以簡單的控制 所以寫好一個常用的curl函數調用是很重要的

百度和網易比較熟悉 所以拿這兩個網站首頁采集來做例子講解


最簡單的寫法:
復制代碼 代碼如下:
$url = 'http://www.baidu.com';
 $ch = curl_init($url);
 curl_setopt($ch,CURLOPT_RETURNTRANSFER,true);
 curl_setopt($ch,CURLOPT_TIMEOUT,5);
 $html = curl_exec($ch);
 if($html !== false){
     echo $html;
 }

由于使用頻繁 可以利用curl_setopt_array寫成函數的形式:
復制代碼 代碼如下:
function get_html($url,$options = array()){
     $options[CURLOPT_RETURNTRANSFER] = true;
     $options[CURLOPT_TIMEOUT] = 5;
     $ch = curl_init($url);
     curl_setopt_array($ch,$options);
     $html = curl_exec($ch);
     curl_close($ch);
     if($html === false){
         return false;
     }
     return $html;
 }

復制代碼 代碼如下:
$url = 'http://www.baidu.com';
echo get_html($url);

有時候需要傳遞一些特定的參數才能得到正確的頁面 如現在要得到網易的頁面:
復制代碼 代碼如下:
$url = 'http://www.163.com';
echo get_html($url);

會看到一片空白 什么也沒有 那么再利用curl_getinfo寫一個函數 看看發生了什么:
復制代碼 代碼如下:
function get_info($url,$options = array()){
     $options[CURLOPT_RETURNTRANSFER] = true;
     $options[CURLOPT_TIMEOUT] = 5;
     $ch = curl_init($url);
     curl_setopt_array($ch,$options);
     $html = curl_exec($ch);
     $info = curl_getinfo($ch);
     curl_close($ch);
     return $info;
 }
 $url = 'http://www.163.com';
 var_dump(get_info($url));

可以看到http_code 302 重定向了 這時候就需要傳遞一些參數了:
復制代碼 代碼如下:
$url = 'http://www.163.com';
$options[CURLOPT_FOLLOWLOCATION] = true;
echo get_html($url,$options);

會發現 怎么是這樣的一個頁面 和我們電腦訪問的不同???

看來參數還是不夠 不夠服務器判斷我們的客戶端是什么設備上的 就返回了個普通版

看來還要傳送USERAGENT
復制代碼 代碼如下:
$url = 'http://www.163.com';
 $options[CURLOPT_FOLLOWLOCATION] = true;
 $options[CURLOPT_USERAGENT] = 'Mozilla/5.0 (Windows NT 6.1; rv:19.0) Gecko/20100101 Firefox/19.0';
 echo get_html($url,$options);

 

OK現在頁面已經出來了 這樣基本這個get_html函數基本能實現這樣擴展的功能

當然也有另外的辦法可以實現,當你明確的知道網易的網頁的時候就可以簡單采集了:
復制代碼 代碼如下:
 $url = 'http://www.163.com/index.html';
 echo get_html($url);

這樣也可以正常的采集

php技術基于curl數據采集之單頁面采集函數get_html的使用,轉載需保留來源!

鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播更多信息之目的,如作者信息標記有誤,請第一時間聯系我們修改或刪除,多謝。

主站蜘蛛池模板: 四虎现在的网址入口 | 深夜影院深a | 在线日本妇人成熟免费观看 | 国产精品每日在线观看男人的天堂 | 国产成+人+综合+亚洲不卡 | 午夜激情在线 | 欧美成人全部费免网站 | 黄视频在线 | 精品久久成人免费第三区 | 亚洲三级自拍 | 狠狠狠地在啪线香蕉 | 在线观看欧美视频 | 婷婷四房综合激情五月在线 | 天天干天天操天天干 | 最新毛片久热97免费精品视频 | 图片小说亚洲 | 激情5月婷婷 | 色多多免费视频 | 交资源网在线观看 | 色呦呦在线观看视频 | 波多野结衣视频一区二区 | 亚洲区小说区图片区qvod伊 | 国产精品白浆在线播放 | 在线欧美视频 | 91精品综合久久久久m3u8 | 国产欧美另类久久久品 | 美女扒开内衣看个够网站 | 国产视频二区在线观看 | 视频一区二区不卡 | 亚洲国产香蕉视频欧美 | 四虎网站| 国内自拍视频一区二区三区 | 午夜免费视频 | 四虎澳门永久8848在线影院 | 中文字幕亚洲一区二区三区 | 99精品视频一区在线视频免费观看 | 一区二区三区在线视频播放 | 免费在线国产视频 | 国产精品亚洲一区二区三区在线观看 | 日韩亚洲欧美在线爱色 | 国产91久久精品一区二区 |