selenium模块
selenium模块的使用selenium模块的作用是自动化控制浏览器,我们也可以通过控制浏览器的行为去进行数据的爬取
如何使用1234561.安装selenium模块pip3 install selenium2.找到与你浏览器对应的版本的驱动,下载谷歌驱动#驱动下载地址https://npm.taobao.org/mirrors/chromedriver/3.下载好驱动以后放到你的程序中即可
selenium基本使用12345678910from selenium import webdriver #导入一个加载驱动的模块url='https://www.pixiv.net/users/30330894/following'chrome = webdriver.Chrome(executable_path='chromedriver.exe') #加载谷歌驱动chrome.get(url) #向url发起请求chrome.page_source #获得页面数据,可以使用lxml将获得的页面数据解析 .quit退出浏览器,并且进关闭Chrom ...
scrapy的简单使用
scrapywindos下scrapy框架的安装123456789101.pip install wheel2.下载twisted 下载地址:https://www.lfd.uci.edu/~gohlke/pythonlibs/ #根据自己系统版本下载3.安装twisted cd进入你下载twisted的包中 pip install Twisted-20.3.0-cp38-cp38-win32.whl4.pip install pywin325.pip install scrapyps:若提示error: Microsoft Visual C++ 14.0 or greater is required. Get it with “Microsoft C++ Build Tools“去安装对应的c++ 14.0的工具包即可,下面有链接 链接:https://pan.baidu.com/s/1T77yLvbnnUjQaT5fBIDCqQ 提取码:1rx9
scrapy的简单使用12345678910111213141.创建一个工程 scrapy startproject 项 ...
requests模块简单使用
request模块request模块简单的说就是在模拟浏览器发送请求的过程
浏览器发送请求的过程 1.指定url
2.发起请求
3.获取响应数据
request模块发起请求123456789101112131415#发起请求,获得响应对象response = request.get()get方法的三个参数 1.url 发送请求的网址 2.params 文件的路径,可以是一个可迭代的对象,会与上述的url进行拼接 3.headers 对应请求头 4.proxies 代理池使用response = request.post()post请求除了get请求的三个参数,还有一些参数 1.data 携带的数据 2.json json格式的数据,使用这个参数,若使用data服务端取不到值
响应对象的方法123456789101112131415161718192021222324252627282930#1.获取响应对象中的数据,以字符串形式返回response.text#2.二进制内容response.content#3.获得响应对象中的json ...
openpyxl的简单使用
openpyxl的简单使用123456789101112131415161.导入模块import openpyxl2.实例化获得一个对象mywb = openpyxl.Workbook()3.获得一个sheet对象sheet = mywb.active4.为某一个单元格赋值sheet[col +row] = 数据eg: sheet[A1]=test #为第一个单元格赋值test 5.存储成excel表mywb.save('路径')
bs4模块
bs4模块bs4模块我们主要使用的就是他其中的BeautilSoup类去用来帮助我们做到解析页面
bs4模块的导入1from bs4 import BeautifulSoup
BeautifulSoup的使用1234567891011121314151617#获得一个bs对象bs = BeautifulSoup('爬取到的页面信息','使用什么解释器去解析')#eg:BeautifulSoup(response.text,'lxml') lxml是一种解释器#bs方法bs.标签名称 返回文档中第一次出现的与标签名称对应的标签bs.find(标签名称) 返回第一次与标签名称对应的标签bs.find_all(标签名称,属性名称) 返回与标签名称对应的所有标签列表#eg:bs.find('div',class_/id/attr='')selectbs.select('选择器'),返回的是一个列表标签.get_text() 获得标签对应的文本#eg:bs.select( ...
butterfly配置介绍
我们简单使用butterfly主题之后,很明显当前主题的样式并不符合我们的要求,我们需要进行一定的配置。接下来我会介绍一些常用的配置
hexo配置文件修改站点相关修改12345678我们打开_config.yml配置文件,找到其中的sitetitle: Hexo #站点的标题subtitle: ''description: '' keywords:author: Sadness Pineapple #作者,与导航栏中的作者相关language: zh-Hans #语言timezone: Asia/Shanghai #时区
上传相关123456# Deployment## Docs: https://hexo.io/docs/one-command-deploymentdeploy: type: git #使用什么上传 repo: git@github.com:a744740454/a744740454.github.io.git #你github的仓库 ...
butterfly主题简单使用
使用主题我们使用hexo搭建完博客之后我们可以选择一个适当的主题去装饰我们的个人博客,这里我选择的是butterfly主题
12#在你的根目录里使用git下载主题git clone -b master https://github.com/jerryc127/hexo-theme-butterfly.git themes/butterfly
进行配置当主题下载好之后我们在根目录下打开_config.yml配置文件进行配置
安装插件12初次安装需要安装下述插件npm install hexo-renderer-pug hexo-renderer-stylus --save
移动配置文件(可以不做)移动配置文件可以减少升级主题带来的不便
12将主题中的_config.yml移动到根目录并重命名为_config.butterfly.ymlhexo5.0以上才支持这个方法
启动博客网站1234最后使用下述命令即可使用新的主题 hexo clean #清楚缓存 hexo g #构建页面 hexo d #推送到远端
gitee图床搭建
gitee图床搭建1.新建一个仓库 1.选择公开仓库,不然外界无法访问仓库内的图片 2.选择使用readme文件初始化这个仓库 3.填写仓库名称以及路径 4.点击创建即可
2.点击头像,找到私人令牌并点击 1.创建一个新令牌 2.选择你私人令牌所拥有的权限 #私人令牌的作用是用于替代用户名与密码的,你可以利用这个私人令牌对仓库进行对应的权限管理 3.获得一串token,这个token需要我们自行保存,丢失之后就没有了。
3.下载PicGo 这是一款开源的用于上传图片的软件,是当前市面上比较好用的软件 下载链接: https://github.com/Molunerfinn/PicGo/releases
4.配置PicGo 1.下载好之后,我们先在picgo左侧最下边安装一个插件 在搜索框输入gitee,下载gitee-upload
2.进行图床设置 我们在图床设置里面选择gitee 里面有下述几个参数
123456repo:(用户名/仓库名) #a744740454/ ...
django的基本使用
django安装123#1.通过命令行安装pip3 install django==1.11.11#2.打开settings 在搜索框中输入python interpreter找到django选择历史版本下载
创建一个Django项目并启动django服务12345678910111213141.创建django项目: 1.使用命令行创建,这个项目所在位置为当前你命令行的位置 django-admin startproject 项目名称 2.使用pycharm创建直接创建项目时选择Django即可2.创建djangoapp 1.在命令行中输入 python manage.py startapp app名称 2.在pycharm中的tool选项中找到run manage.py Task点击在下方输入 startapp app名称 ps:主要效果就是帮助你省去了python manage.py 3.Django项目运行 python manage.py runserver
django ...