isme正是在下

isme正是在下


  • 首页

  • Go

  • Python

  • k8s

  • crawler

  • Linux

  • 关于

  • 搜索

运维面试、笔试题

发表于 2018-08-08 | 分类于 linux
本文字数: 4.8k | 阅读时长 ≈ 4 分钟

摘要

本文部分内容来源于网络,个人收集整理,请勿传播

阅读全文 »

python语言-面试题

发表于 2018-07-11 | 分类于 python
本文字数: 16k | 阅读时长 ≈ 14 分钟

摘要

非常感谢老男孩老师的分享,虽然没有机会到老男孩学习,但是我所学习到的大部分python相关知识都是从老男孩学到的,再次感谢

本文转自武沛齐老师的博客

阅读全文 »

python框架-scrapy爬虫-redis组件

发表于 2018-07-10 | 分类于 python
本文字数: 9.5k | 阅读时长 ≈ 9 分钟

摘要

本文学习过程中记录

使用scrapy爬虫框架编写爬虫过程中,如果碰到大量的爬虫工作,将中间数据写入到数据库是不明智的,因为是频繁操作磁盘io导致效率下降,这时候应该把数据写入到redis中,提高效率的同时可以实现分布式爬虫。

scrapy-redis是一个基于redis的scrapy组件,通过它可以快速实现简单分布式爬虫程序,该组件本质上提供了三大功能:

  • scheduler:调度器
  • dupefilter:URL去重规则(被调度器使用)
  • pipeline:数据持久化
阅读全文 »

python框架-scrapy爬虫-基础

发表于 2018-07-08 | 分类于 python
本文字数: 36k | 阅读时长 ≈ 32 分钟

摘要

本文学习过程中记录

学习心得

经过几天路飞学院爬虫课程的学习,了解了爬虫的本质以及相关的基本知识,今天开始学习爬虫框架scrapy。

前两天的课程学习中应用的是requests和bs4模块,scrapy框架与这两个模块相比无论是速度还是在便捷性上提高的不是一点半点,但是前两天的学习并不是无用的。

前两天的学习了解到整个爬虫的思想以及流程,还有理解如何提高爬虫效率的方法,能够在学习scrapy框架的过程中更深入理解,有一种恍然大悟的感觉,整个学习过程是循序渐进的,感谢路飞学院的这次课程。

scrapy

Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中。
其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。

Scrapy 使用了 Twisted异步网络库来处理网络通讯。整体架构大致如下

阅读全文 »

python框架-爬虫本质以及bs4模块

发表于 2018-07-08 | 分类于 python
本文字数: 17k | 阅读时长 ≈ 16 分钟

摘要

本文内容学习过程中记录

路飞爬虫课程第二天学习内容知识点整理

首先bs4是一个处理html很方便的一个模块,之前在处理html文本时使用的是re正则,但是和bs4相比负责程度不是一个等级,恨没有早点学习到这个模块。

之前也有了解过异步非阻塞的相关知识,但是一直没有能完全理解,经过今天的课程,终于知道了什么是异步非阻塞。

  • bs4
  • 爬虫本质
  • 提高爬虫性能
  • web微信
  • io多路复用
  • 异步非阻塞
阅读全文 »

python框架-初识爬虫requests模块

发表于 2018-07-04 | 分类于 python
本文字数: 7.6k | 阅读时长 ≈ 7 分钟

摘要

本文部分内容来源于网络,个人收集整理,请勿传播

一直都想学习一下python爬虫的相关知识,但是苦于一直没有时间。因此,非常感谢这次能够路飞学院学习到爬虫知识的机会。

  • 不会web能不能做爬虫? 不能
  • 写爬虫的时候经历的阶段
    • 找不到入口
    • 反复试,找到入口
  • 必备知识
    • 爬虫本质,通过代码伪造浏览器发送请求
    • http请求伪造的像不像
      • 请求头
        • user-agent:用户使用什么设备访问
        • cookie:在用户浏览器上保存的标记
      • 请求体
        • get数据
        • post数据
    • 分析http请求
      • chrome
阅读全文 »

nginx优化(https,keepalive)

发表于 2018-06-29 | 分类于 linux , nginx
本文字数: 8.3k | 阅读时长 ≈ 8 分钟

摘要

本文部分内容来源于网络,个人收集整理,请勿传播

原文地址

阅读全文 »

【原创】ansible-自动注册

发表于 2018-06-15 | 分类于 linux
本文字数: 6.9k | 阅读时长 ≈ 6 分钟

摘要

由于ansible与agent之间的通信使用的是openssh,每次新增机器之后需要在ansible的inventory文件中添加新增机器的相关配置。虽然配置起来很简单,但是一旦短时间新增大量机器、或者是长时间的维护过程中难免会有遗漏或配置重复的情况出现,因此类似salt的agent自动向server注册的功能就显得十分重要。

目前为至还未发现世面上有这种类似saltstack的agent自动向server端自动注册的机制,其实实现起来很简单,也不需要修改现有的ansible,只需要用到几个服务,以及手写几个脚本就可以按照你自己定义好的规则实现自动注册。

需要用到的服务

  • ansible
  • etcd
  • confd
  • python or shell
阅读全文 »

ansible 安装配置以及一些常用模块

发表于 2018-05-29 | 分类于 linux
本文字数: 28k | 阅读时长 ≈ 25 分钟

摘要

本文部分内容来源于网络,个人收集整理,请勿传播

ansible是目前非常火的运维自动化批量管理工具之一

  • saltstack
  • ansible
  • puppet
  • chef

ansible和saltstack都是使用python语言写的,而在选择以及使用的过程中,ansible相对saltstack具有以下几个优势

  • 使用ssh-key控制agent,无需安装agent
  • 配置起来相对简单,学习门槛低
  • 并发以及性能方面还是saltstack占优的,不过在小集群(300以下)的表现上ansible也非常给力;
  • 二次开发扩展:由于两个都是python语言写的,这方面都还不错,不过在日常使用中吗,saltstack的api调用要比ansible的好用很多,state和playbook孰强孰若还真不好说
  • 操作界面,没用过ui
  • 第三方插件的丰富程度这点ansible完胜
  • 支持windows
  • 开源社区的活跃程度这点ansible完胜
  • 安全性:saltstack相对要更好一些
  • 自动注册:这点ansible貌似没有
阅读全文 »

shell基础-字符串操作

发表于 2018-05-25 | 分类于 linux , shell
本文字数: 2.6k | 阅读时长 ≈ 2 分钟

摘要

本文部分内容来源于网络,个人收集整理,请勿传播

shell中截取字符串有很多种方法,通常情况可以使用sed、awk、cut来进行字符串切割,本文使用的是shell中字符串本身具有的字符串切割方法

字符串切割一共有9种使用方法

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
${expression}
# 字符串切割
## 最小限度从后面截取word
${parameter%word}
## 最大限度从后面截取word
${parameter%%word}
## 最小限度从前面截取word
${parameter#word}
## 最大限度从前面截取word
${parameter##word}

# 获得字符串长度
${#parameter}

# 缺省值的替换
${parameter:-word}
${parameter:=word}
${parameter:?word}
${parameter:+word}
阅读全文 »
1…161718…27
Casstiel

Casstiel

268 日志
37 分类
45 标签
GitHub E-Mail
主题 – NexT.Mist
津ICP备-18003787号-1 © 2016 – 2025 Casstiel | 2.6m | 39:47