189 8069 5689

python简单爬虫笔记

python模拟游览器爬取相关页面

创新互联公司2013年成立，是专业互联网技术服务公司，拥有项目网站建设、网站制作网站策划，项目实施与项目整合能力。我们以让每一个梦想脱颖而出为使命，1280元西宁做网站,已为上家服务,为西宁各地企业和个人服务,联系电话:18982081108

import urllib.request

url="https://blog.51cto.com/itstyle/2146899"

#模拟浏览器
headers=("User-Agent","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36")
opener=urllib.request.build_opener()
opener.addheaders=[headers]
data=opener.open(url).read()

fh=open("D:/5.html","wb")
fh.write(data)
fh.close()

python爬取新闻网站并将文章下载到本地

import urllib.request
import urllib.error
import re
data=urllib.request.urlopen("http://news.sina.com.cn/").read()
data2=data.decode("utf-8","ignore")
pat='href="(http://news.sina.com.cn/.*?)">'
allurl=re.compile(pat).findall(data2)
for i in range(0,len(allurl)):
    try:
        print("第"+str(i+1)+"次爬取")
        thisurl=allurl[i]
        file="D:/pac/sinanews/"+str(i)+".html"
        urllib.request.urlretrieve(thisurl,file)
        print("-----成功-----")
    except urllib.error.URLError as e:
        if hasattr(e,"code"):
            print(e.code)
        if hasattr(e,"reason"):
            print(e.reason)

python爬取月光博客文章下载到本地

import re
import urllib.request
import urllib.error

data=urllib.request.urlopen("http://www.williamlong.info/").read()
pat='rel="bookmark">(.*?)'
pat_url='class="post-title">

            
            
                        

            分享名称：python简单爬虫笔记            

            网站网址：http://cdxtjz.cn/article/jodseg.html


    
        其他资讯
        
            
                    阿里云服务器ftp连接不上pasv 阿里云 ftp外网无法访问
                

                    linux查看终端命令 linux终端查看系统信息
                

                    统计句法分析java代码 java统计功能
                

                    linux中swp命令 linux swapon s
                

                    linux命令重复输入 linux显示重复行



  
    
      联系我们
      
        您好HELLO!

        感谢您来到成都网站建设公司，若您有合作意向，请您为我们留言或使用以下方式联系我们，

        我们将尽快给你回复，并为您提供真诚的设计服务，谢谢。
      
      
        电话：028- 86922220 18980695689
        商务合作邮箱：631063699@qq.com
        合作QQ： 532337155
        成都网站设计地址：成都市青羊区锣锅巷31号五金站写字楼6楼
      
    
    
      小谭建站工作室
      
        成都小谭网站建设公司拥有多年以上互联网从业经验的团队，始终保持务实的风格，以"帮助客户成功"为已任，专注于提供对客户有价值的服务。

        我们已为众企业及上市公司提供专业的网站建设服务。我们不只是一家网站建设的网络公司；我们对营销、技术、管理都有自己独特见解，小谭建站采取“创意+综合+营销”一体化的方式为您提供更专业的服务！
      
      小谭观点
      
        相对传统的成都网站建设公司而言，小谭是互联网中的网站品牌策划，我们精于企业品牌与互联网相结合的整体战略服务。

        我们始终认为，网站必须注入企业基因，真正使网站成为企业vi的一部分，让整个网站品牌策划体系变的深入而持久。
      
    
  
  
     
         友情链接：
        品牌网站建设   fenxiangzhe.com   吉安网站建设   科慧知光   达州托管服务器   德昌县网站建设   成都康明斯发电机   泸县网站设计   成都数据分析报告   成都门户网站建设设计方案     
    
  
   © Copyright 2023 小谭建站工作室All Rights Reserved.  成都网站建设 / 成都网站建设 / 响应式网站建设 / 成都服务器租用