Scrapy 学习笔记及简单使用

Scrapy 是纯 Python 实现的爬虫框架(scraping and crawling framework),可以非常轻松地提取网页结构信息。最初设计时 Scrapy 仅仅作为网页抓取工具,但因其功能强大,配置简单,逐渐的被扩大使用范围,也经常被用于以下方面:

  • 数据挖掘 Data Mining
  • 信息处理 information processing
  • 历史信息存储 historical archival
  • 检测及自动化测试 monitoring and automated testing

因为网上的教程已经非常详细了,这里就重点记录解决的几个问题。

  • Scrapy的官网地址:http://scrapy.org
  • Scrapy在Github上的项目地址:https://github.com/scrapy/scrapy.git
  • Scrapy的官方文档地址:http://doc.scrapy.org/

搭建环境

安装 python 2.7

一般 Ubuntu/Linux Mint 都会预装,查看一下即可

python -V
Python 2.7.12

如果没有安装 Python,可以使用之前推荐的 pyenv 来安装。下面的步骤也同样可以放到 pyenv 中执行。

安装 virtualenv

在开发目录中虚拟化python环境,避免和系统依赖冲突

sudo pip install virtualenv
source ./bin/active # 开启
# 此后再使用 pip install 时会安装在独立的目录下

具体用法可参考官网

安装依赖

sudo apt-get install libxml2-dev libxslt1-dev python-dev
pip install scrapy

项目结构

安装完成之后使用如下命令生成初始项目

scrapy startproject demo

初始目录结构如下:

$ tree demo
demo
├── demo
│   ├── __init__.py
│   ├── items.py
│   ├── middlewares.py
│   ├── pipelines.py
│   ├── settings.py
│   └── spiders
│       └── __init__.py
└── scrapy.cfg

2 directories, 7 files

文件说明:

  • scrapy.cfg 项目的配置信息,主要为 Scrapy 命令行工具提供一个基础的配置信息。(爬虫相关的配置信息在settings.py 文件中)
  • items.py 设置数据存储模板,用于结构化数据
  • middlewares 中间件,全局处理请求
  • pipelines 数据处理行为,如:一般结构化的数据持久化,存储数据库等操作
  • settings.py 爬虫的配置文件,如:递归的层数、并发数,延迟下载等
  • spiders 爬虫目录,如:创建文件,编写爬虫规则

进入目录

cd demo
scrapy genspider example example.com   # 使用该命令安装模板生成 Spider

更详细的入门见官网:https://doc.scrapy.org/en/latest/intro/tutorial.html

架构

Scrapy使用了Twisted异步网络库来处理网络,可以对网站页面进行大量非阻塞的异步请求,能够对目标网站按照网站结构的层级次序逐级向下采集,并可以在已采集到的页面中提取其他符合要求的目标网页地址资源,从而实现从单个或多个入口进入,对目标网站进行全面扫描并获取所需的数据。结构如下:

Scrapy的核心组件:

  • 引擎(Scrapy Engine) 用来处理整个系统的数据流,触发事务(框架核心),负责控制和调度各个组件

  • 调度器(Scheduler) 用来接受引擎发过来的请求,压入队列中,并在引擎再次请求的时候返回,如:要抓取的链接(URL)的优先队列,由它来决定下一个要抓取的URL是什么,并进行去重。

  • 下载器(Downloader) 下载器负责对目标页面发出请求并获取页面反馈的数据,之后传递给Scrapy引擎,最终传递给爬虫进行数据提取。

  • 爬虫(Spider) 爬虫是Scrapy的用户自行编写的一段数据提取程序,针对下载器返回的数据结构进行分析(一般为HTML),并提取出其中的结构化数据,并可以指定其他需要跟进的URL和处理方法。每个爬虫负责处理一个或多个特定的网站。

  • 项目管道(Pipline) 负责处理爬虫从网页中抽取的实体,主要的功能是持久化实体(Item)、验证实体的有效性、清除垃圾信息。当页面被爬虫解析后,解析后内容将会发送到项目管理通道,经过几个特定的次序处理。

  • 数据 (Item) Item是爬虫针对网页数据做解析后返回的数据,需要在使用之前预先定义好Item的数据结构,爬虫的解析程序负责将提取到的数据填充到Item中,并将Item返回,传递给数据管道进行后续处理。

  • 下载器中间件(Downloader Middlewares) 位于Scrapy引擎和下载器之间的框架,主要是处理Scrapy引擎和下载器之间的请求与响应。

  • 爬虫中间件(Spider Middlewares) 介于Scrapy引擎和Spider之间的框架,处理爬虫的响应输入和请求输出。

  • 调度中间件(Scheduler Middlewares) 介于Scrapy引擎和调度之间的中间件,从Scrapy引擎发送到调度的请求和响应。

图解见官网:https://doc.scrapy.org/en/latest/topics/architecture.html

使用 ImagesPipeline 下载图片

在 scrapy 中有实现的 ImagesPipeline , 默认即可下载大量的图片,如果想要实现自己的下载图片 Pipeline,并且自定义输出图片的文件的名字,可以重写 file_path() 方法。

import scrapy
from scrapy.pipelines.images import ImagesPipeline

class ImagePipeline(ImagesPipeline):
    default_headers = {
        'user-agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36'
    }

    # 对各个图片URL返回一个Request
    def get_media_requests(self, item, info):
        try:
            for image_url in item['image_urls']:
                f = image_url.split('.')[-1]
                yield scrapy.Request(image_url, meta={'image_name': item['image_name'], 'format': f}, headers=self.default_headers)
        except Exception as error:
            print error

    # 当一个单独项目中的所有图片请求完成时(success, image_info_or_failure)
    def item_completed(self, results, item, info):
        image_paths = [x['path'] for ok, x in results if ok]
        if not image_paths:
            # raise DropItem("Item contains no images")
            print "Image path no exist"
        return item


    # Override the convert_image method to disable image conversion

    # scrapy convert image to jpg 重写此方法,可以下载自定的图片格式,不过可能需要特殊处理格式
    # def convert_image(self, image, size=None):
    #     buf = StringIO()
    #     try:
    #         image.save(buf, image.format)
    #     except Exception, ex:
    #         raise ImageException("Cannot process image. Error: %s" % ex)
    #
    #     return image, buf

    # 默认情况下,使用ImagePipeline组件下载图片的时候,图片名称是以图片URL的SHA1值进行保存的。
    # scrapy 0.12 可以覆盖 image_key 方法, 在此后版本中 使用 file_path 来自定义下载图片名称
    # def image_key(self, url):
    #     image_guid = hashlib.sha1(url).hexdigest()
    #     return 'full/%s.jpg' % (image_guid)

    # http://stackoverflow.com/questions/6194041/scrapy-image-download-how-to-use-custom-filename/22263951#22263951
    def file_path(self, request, response=None, info=None):
        name = request.meta['image_name']
        f = request.meta['format']
        return 'full/%s.jpg' % name

定义 middlewares

middlewares 是 Scrapy 在请求时中间必须经过的步骤,在 settings 中有设置 DOWNLOADER_MIDDLEWARES

import random

from scrapy.downloadermiddlewares.useragent import UserAgentMiddleware

from scrapy.conf import settings


class RandomUserAgentMiddleware(UserAgentMiddleware):

    def __init__(self, user_agent=''):
        self.user_agent = user_agent

    # 每一请求都会走这个函数,在这里随机挑选 UA
    def process_request(self, request, spider):
        ua = random.choice(settings.get('USER_AGENT_LIST'))
        if ua:
            print "******Current UserAgent: %s **************" % ua

            request.headers.setdefault("User-Agent", ua)


class ProxyMiddleware(object):
    def process_request(self, request, spider):
        request.meta['proxy'] = random.choice(settings.get('HTTP_PROXY_LIST'))

多 pipeline 协同处理

Item 在 Spider 中构造之后会被传送到 Pipeline 中,按照一定的顺序执行。一般情况下 pipeline 会做一些数据处理或存储的事情,一般写数据库操作都放到 Pipeline 中。

当一个 Item 要被多个 pipeline 处理时,需要定义:

ITEM_PIPELINES = {
    'imdb.pipelines.MoviePipeline': 300,
    'imdb.image_pipeline.ImagePipeline': 300
}

此时,Item 就会被两个 pipeline 处理,如果某个 pipeline 处理某一类事件,比如上述例子中, MoviePipeline 处理数据的存储,而 ImagePipeline 处理图片的下载。


2017-04-23 scrapy , python , crawler , spider , 学习笔记

使用 pyenv 管理 Python 版本

记录一下使用过程,留备以后使用。

pyenv 是 Python 版本管理工具。 pyenv 可以改变全局的 Python 版本,安装多个版本的 Python, 设置目录级别的 Python 版本,还能创建和管理 virtual python environments 。所有的设置都是用户级别的操作,不需要 sudo 命令。

pyenv 主要用来管理 Python 的版本,比如一个项目需要 Python 2.x ,一个项目需要 Python 3.x 。 而 virtualenv 主要用来管理 Python 包的依赖,不同项目需要依赖的包版本不同,则需要使用虚拟环境。

pyenv 通过系统修改环境变量来实现 Python 不同版本的切换。而 virtualenv 通过将 Python 包安装到一个目录来作为Python 包虚拟环境,通过切换目录来实现不同包环境间的切换。

pyenv 的美好之处在于,它并没有使用将不同的 $PATH 植入不同的 shell 这种高耦合的工作方式,而是简单地在 $PATH 的最前面插入了一个垫片路径(shims):~/.pyenv/shims:/usr/local/bin:/usr/bin:/bin。所有对 Python 可执行文件的查找都会首先被这个 shims 路径截获,从而使后方的系统路径失效。

pyenv 安装

根据官网的 安装说明 或者 自动安装 。 如果使用 Mac 直接使用 Homebrew。安装成功后记得在 .bashrc 中添加三行来开启自动补全。

export PATH="/home/einverne/.pyenv/bin:$PATH"
eval "$(pyenv init -)"
eval "$(pyenv virtualenv-init -)"

根据自己的环境配置。

自动安装

pyenv 提供了自动安装的工具,执行命令安装即可:

curl -L https://raw.githubusercontent.com/yyuu/pyenv-installer/master/bin/pyenv-installer | bash

保证系统有 git ,否则需要新安装 git。

手动安装

如果想要更加详细的了解安装过程,可以使用手动安装。将 pyenv 检出到你想安装的目录。建议路径为:$HOME/.pyenv

cd ~
git clone git://github.com/yyuu/pyenv.git .pyenv
echo 'export PYENV_ROOT="$HOME/.pyenv"' >> ~/.bashrc
echo 'export PATH="$PYENV_ROOT/bin:$PATH"' >> ~/.bashrc
echo 'eval "$(pyenv init -)"' >> ~/.bashrc
source ~/.bashrc

添加环境变量。PYENV_ROOT 指向 pyenv 检出的根目录,并向 $PATH 添加 $PYENV_ROOT/bin 以提供访问 pyenv 命令的路径。

这里的 shell 配置文件(~/.bash_profile)依不同 Linux 而需作修改,如果使用 Zsh 则需要相应的配置 ~/.zshrc

在使用 pyenv 之后使用 pip 安装的第三方模块会自动安装到当前使用 python 版本下,不会和系统模块产生冲突。使用 pip 安装模块之后,如果没有生效,记得使用 pyenv rehash 来更新垫片路径。

pyenv 常用命令

使用 pyenv commands 显示所有可用命令

查看本机安装 Python 版本

使用如下命令查看本机安装版本

pyenv versions

星号表示当前正在使用的 Python 版本。使用 python -V 确认版本。

查看可安装 Python 版本

使用如下命令查看可安装版本

pyenv install -l

python 安装与卸载

$ pyenv install 2.7.3   # 安装python
$ pyenv uninstall 2.7.3 # 卸载python

python切换

$ pyenv global 2.7.3  # 设置全局的 Python 版本,通过将版本号写入 ~/.pyenv/version 文件的方式。
$ pyenv local 2.7.3 # 设置 Python 本地版本,通过将版本号写入当前目录下的 .python-version 文件的方式。通过这种方式设置的 Python 版本优先级较 global 高。

python优先级

shell > local > global

pyenv 会从当前目录开始向上逐级查找 .python-version 文件,直到根目录为止。若找不到,就用 global 版本。

$ pyenv shell 2.7.3 # 设置面向 shell 的 Python 版本,通过设置当前 shell 的 PYENV_VERSION 环境变量的方式。这个版本的优先级比 local 和 global 都要高。–unset 参数可以用于取消当前 shell 设定的版本。
$ pyenv shell --unset

$ pyenv rehash  # 创建垫片路径(为所有已安装的可执行文件创建 shims,如:~/.pyenv/versions/*/bin/*,因此,每当你增删了 Python 版本或带有可执行文件的包(如 pip)以后,都应该执行一次本命令)

pyenv-virtualenv

pyenv 插件: pyenv-virtualenv

使用自动安装 pyenv 后,它会自动安装部分插件,通过pyenv-virtualenv 插件可以很好的和 virtualenv 结合:

einverne@ev  ~  cd ~/.pyenv/plugins
einverne@ev  ~/.pyenv/plugins   master  ll
total 24K
drwxr-xr-x 4 einverne einverne 4.0K Apr 22 10:55 pyenv-doctor
drwxr-xr-x 5 einverne einverne 4.0K Apr 22 10:55 pyenv-installer
drwxr-xr-x 4 einverne einverne 4.0K Apr 22 10:55 pyenv-update
drwxr-xr-x 7 einverne einverne 4.0K Apr 22 10:55 pyenv-virtualenv
drwxr-xr-x 4 einverne einverne 4.0K Apr 22 10:55 pyenv-which-ext
drwxr-xr-x 5 einverne einverne 4.0K Apr 22 10:54 python-build

创建虚拟环境

$ pyenv virtualenv 2.7.10 env-2.7.10

若不指定python 版本,会默认使用当前环境python版本。如果指定Python 版本,则一定要是已经安装过的版本,否则会出错。环境的真实目录位于 ~/.pyenv/versions 下

列出当前虚拟环境

pyenv virtualenvs
pyenv activate env-name  # 激活虚拟环境
pyenv deactivate #退出虚拟环境,回到系统环境

删除虚拟环境

pyenv uninstall my-virtual-env
rm -rf ~/.pyenv/versions/env-name  # 或者删除其真实目录

使用pyenv 来管理python,使用 pyenv-virtualenv 插件来管理多版本 python包。此时,还需注意,当我们将项目运行的 env 环境部署到生产环境时,由于我们的 python 包是依赖python 的,需要注意生产环境的 python 版本问题。

所有命令

$ pyenv commands
activate
commands
completions
deactivate
doctor
exec
global
help
hooks
init
install
installer
local
offline-installer
prefix
rehash
root
shell
shims
uninstall
update                 # 更新 pyenv 及插件
version
--version
version-file
version-file-read
version-file-write
version-name
version-origin
versions
virtualenv
virtualenv-delete
virtualenv-init
virtualenv-prefix
virtualenvs
whence
which

PyCharm

PyCharm 中可以非常方面的切换 Python 环境非常方便。强推。

参考


2017-04-22 Python , pyenv , 经验总结

Redis 常用命令

Redis 常用的数据结构有 String, Hash, List, Set, Sorted Set.

几个常用网址:

对键的命名,”对象类型:对象ID:对象属性“

redis-cli 是 Redis 自带的命令行工具(类似于MySQL的mysql命令), 直接在命令行终端与 redis server 执行所有命令和返回响应。下面所有命令都可以在 cli 交互式命令行中执行。

交互式命令参数

redis-cli 命令行自带一些参数,可以使用 redis-cli --help 查看。

通常 -p 参数指定端口, -a 参数指定密码, -h 指定 hostname。

--stat 参数打印状态

如果本地没有安装 Redis,可以通过在线模拟尝试 Try Redis

字符串类型操作命令

字符串类型,最大容量 512MB

赋值与取值

将 value 关联到 key,如果 key 有值, SET 命令覆盖。对于某个原本带有生存时间(TTL)的键来说, 当 SET 命令成功在这个键上执行时, 这个键原有的 TTL 将被清除。

SET key value

GET key

递增递减数字

让当前键值递增,操作键不存在时默认为0,当键不是整数时,报错

INCR key

通过 increment 参数来在 key 的基础上加上一个增量。

INCRBY key increment

递减数值

DECR key

递减一个量

DECRBY key decrement

增加指定浮点数

INCRBYFLOAT key increment

向尾部追加值

如果key 已经存在,并且 value 是一个字符串,那么 APPEND 将 value 追加到末尾

APPEND key value

获取字符串长度

返回 key 所存储的字符串长度

STRLEN key

多key操作

获取多个值

MGET key [key ...]

设置多个 key value

MSET key value [key value ...]

散列类型操作命令

通过 HSET建立的键是散列类型,用过 SET 命令建立的是字符串类型

赋值取值

将哈希表 key 中的域 field 的值设为 value 。

如果 key 不存在,一个新的哈希表被创建并进行 HSET 操作。

如果域 field 已经存在于哈希表中,旧值将被覆盖。

HSET key field value
HGET key field

HMSET key field value [field value ...]
HMGET key field [field ...]

当字段不存在时赋值

HSETNX key field value

获取所有域和值

HGETALL key

检查是否存在

查看哈希表 key 中,给定域 field 是否存在。

HEXISTS key field

增量

增加数字,返回增值后的字段值

HINCRBY key field increment

删除

删除一个或者多个字段,返回被删除的字段个数

HDEL key field [field ...]

列表类型

有序的字符串列表,向列表两端添加元素,或者获取列表的某一个片段。列表类型内部使用双向链表,向列表两端添加元素时间复杂度O(1)

LPUSH 用来向列表左边增加元素,返回值表示增加元素后列表的长度,RPUSH 同理

LPUSH key value [value ...]

RPUSH key value [value... ]

从左边右边弹出元素

LPOP key

RPOP key

获取列表中元素的个数

LLEN key

获取列表中某一个片段

LRANGE key start stop

删除列表中指定的值

LREM key count value

获取设置指定索引的元素值

LINDEX key index

删除指定索引范围之外的所有元素。

LTRIM key start end

向列表中插入元素,将值 value 插入到列表 key 当中,位于值 pivot 之前或之后。

LINSERT key BEFORE | AFTER pivot value

先执行 RPOP 命令再执行 LPUSH 命令

RPOPLPUSH source destination

集合类型

向集合中增加一个或者多个元素,如果不存在则创建,如果存在则忽略。SREM 用来从集合中删除一个或者多个元素,并返回删除成功的个数

SADD key member [member ...]

SREM key member [member ...]

返回集合中的所有元素

SMEMBERS key

判断元素是否在集合中

SISMEMBER key member

集合间运算

集合差集 A-B

SDIFF key [key ...]

集合交集运算 A交B

SINTER key [key ..]

集合并集 A并B

SUNION key [key...]

获得集合中的元素个数

SCARD key

将结果保存到 destination 键中

SDIFFSTORE destination key [key ...]

SINTERSTORE destination key [key ...]

SUNIONSTORE destination key [key...]

随机从集合中获取一个元素

SRANDMEMBER key [count]

从集合中弹出一个元素

SPOP key

有序集合

在集合的基础上加上了排序

有序集合中加入一个元素和该元素的分数,如果元素存在则用新的分数替换

ZADD key score member [score member ...]

获得元素分数

ZSCORE key member

获取排名在某个范围的元素列表,按照元素分数从小到大顺序返回索引从 start 到 stop 之间的所有元素,包括两端。可选参数可返回元素分数。

ZRANGE key start stop [WITHSCORES]

元素分数从小到大顺序返回元素分数在 min 和 max 之间的元素

ZRANGEBYSCORE key min max

增加某个元素分数,返回值为更改过后的分数

ZINCRBY key increment member

获取集合中元素的数量,返回 integer 数量

ZCARD key

获得指定分数范围内的元素个数,返回个数

ZCOUNT key min max

删除一个或者多个元素,返回成功删除的元素数量

ZREM key member [member ...]

按照排名范围删除元素,元素分数从小到大顺序(索引0表示最小值),删除指定排名范围内的所有元素,并返回删除的数量

ZREMRANGEBYRANK key start stop

按照分数范围删除元素,删除指定分数范围内的所有元素,返回删除元素的数量

ZREMRANGEBYSCORE key min max

获得元素的排名,从小到大顺序,分数最小排名为0。

ZRANK key member

计算多个有序集合的交集,并将结果存储在 destination 键中,同样以有序集合存储,返回 destination 键中的元素个数

ZINTERSTORE destination numkeys key [key ...] [WEIGHTS weight [weight ...]] [AGGREGATE SUM | MIN | MAX]

AGGREGATE 是 SUM 时(默认值), destination 键中元素的分数是每个参与计算的集合中该元素分数的和。

其他情况同理,MIN 为最小值,MAX 为最大值

事务

Redis 中事务 transaction 是一组命令的集合。事务同命令一样都是 Redis 的最小执行单位。

MULTI
SADD ”user:1:following" 2
SADD "user:2:followers" 1
EXEC

事务中 WATCH 命令,监控一个或者多个键,一旦其中一个键被修改(或删除),之后的事务就不会执行,监控持续到 EXEC 命令

过期时间

关系型数据库一般需要额外设置一个字段“到期时间”,然后定期删除,而在 Redis 中可使用 EXPIRE 命令设置一个键的过期时间,到时间后 Redis 会自动删除它。

EXPIRE key seconds

返回1表示成功,0为键不存在或者设置失效。 EXPIRE 命令参数必须为整数,最小单位为1秒,如果想要更加精确的控制过期时间可以使用 PEXPIRE 命令,单位为毫秒,也可以使用 PTTL 来以毫秒为单位返回剩余时间。

TTL key

TTL 命令查看键多久时间被删除,当键不存在时返回 -2,当键不过期时返回-1

PERSIST key

取消键的过期时间,成功清除返回1,否则返回0

SORT 命令对列表类型,集合类型和有序集合类型键进行排序,可以完成关系型数据库中连接查询类似的任务。

SORT 命令时

  • 尽可能减少待排序键中的元素数量
  • 使用LIMIT参数只获取需要的数据
  • 排序的数据比较大,尽可能使用 STORE 参数将结果缓存

Redis Client

Redis 支持的客户端

https://redis.io/clients

持久化

RDB 方式 和 AOF 方式

RDB 方式

通过快照 snapshotting 完成,当符合一定条件时 Redis 会自动将内存中的所有数据生成一份副本并存储到硬盘上,这个过程称为”快照“。

以下情况执行快照:

  • 根据配置规则进行自动快照
  • 用户执行 SAVE 或者 BGSAVE 命令
  • 执行 FLUSHALL 命令
  • 执行复制 replication
  1. 配置规则

save 900 1 表示在15min(900s) 时间内,有一个或者一二以上键被更改则进行快照。

  1. SAVE 或 BGSAVE 命令

SAVE 命令时, Redis 同步地进行快照操作,会阻塞所有来自客户端的请求。尽量避免在生产环境使用这一命令。

BGSAVE 命令,后台异步进行快照。查看快照是否成功,通过 LASTSAVE 命令获取最近一次成功执行快照时间,返回结果 Unix 时间戳。

  1. FLUSHALL ,Redis 清除数据库所有数据。只要定义了自动快照条件,则会进行快照。如果没有定义自动快照,则不会进行快照。

  2. 复制操作时,即使没有定义自动快照条件,也会生成 RDB 快照

Redis 默认将快照文件存储在工作目录中 dump.rdb 文件中,可以通过配置 dir 和 dbfilename 两个参数分别来指定快照文件的存储路径和文件名。

AOF方式

将 Redis 执行的每一条写命令追加到硬盘文件中。默认没有开启 AOF (append only file) ,可以通过 appendonly 参数启用:

appendonly yes

AOF 文件保存位置和 RDB 文件位置相同,通过 dir 参数设置,默认为 appendonly.aof ,通过 appendfilename 参数修改:

appendfilename appendonly.aof

集群

结构上,容易发生单点故障,分配不同服务器

容量上,内存容易成为存储瓶颈,需要对数据进行分片

复制

复制多副本部署不同服务器,防止一台故障丢失数据。

从数据库配置中:

slaveof 主数据库地址 主数据库端口

通过复制实现读写分离

哨兵

监控 Redis 运行状况。

集群

集群的特点在于拥有和单机实例同样的性能,同时在网络分区后能够提供一定的可访问性以及对主数据库故障恢复的支持。

https://github.com/erikdubbelboer/phpRedisAdmin

Redis 命令属性

Redis 不同命令拥有不同的属性,是否只读命令,是否是管理员命令,一个命令可以拥有多个属性。

REDIS_CMD_WRITE 属性,会修改 Redis 数据库数据

REDIS_CMD_DENYOOM 属性,可能增加 Redis 占用的存储空间,显然拥有该属性的命令都拥有 REDIS_CMD_WRITE 属性。

REDIS_CMD_NOSCRIPT 属性,无法在Redis脚本中执行

REDIS_CMD_RANDOM 脚本执行了该属性命令之后,不能执行拥有 REDIS_CMD_WRITE 属性命令

REDIS_CMD_SORT_FOR_SCRIPT 产生随机结果

REDIS_CMD_LOADING 当 Redis 启动时,只会执行拥有该属性的命令


2017-04-21 Redis , database , 学习笔记

Redis 介绍

Redis(Remote Dictionary Server) 是由 Salvatore Sanfilippo(antirez) 开发的开源软件,基于内存的 Key-Value 类型的 NoSQL 。在 DB Engines Ranking K-V 数据库中排行第一1

Redis支持很多的特性:

  • 所有数据都必须放在内存中
  • 支持数据持久化:AOF和RDB两种类型
  • 支持异步数据复制

Redis Cluster 常用5种数据结构(String, Lists, Sets, Sorted Set, Hash) 以单进程方式处理请求,数据持久化和网络Socket IO等工作是异步进程

安装

官网下载 https://redis.io/download

下载最新的稳定版 Redis,可以从 http://download.redis.io/redis-stable.tar.gz 获取最新稳定版

curl -O http://download.redis.io/redis-stable.tar.gz

解压 tag.gz

tar xzvf redis-stable.tar.gz

进入解压后目录

cd redis-stable

编译和安装,运行 make 命令

make

当二进制文件编译完成之后,运行 test 确保一切都正确

make test

当所有测试跑通过之后安装到系统

sudo make install

运行 test 的时候报了一个错误:

*** [err]: Test replication partial resync: ok psync (diskless: yes, reconnect: 1) in tests/integration/replication-psync.tcl

参考该 issue 使用单核运行 test

taskset -c 1 sudo make test

配置 Redis

在 etc 目录下新建 redis 配置文件目录

sudo mkdir /etc/redis

将默认配置文件拷贝到配置目录

sudo cp redis.conf /etc/redis

编辑配置文件

sudo vim /etc/redis/redis.conf

修改 supervised 为 systemd

# If you run Redis from upstart or systemd, Redis can interact with your
# supervision tree. Options:
#   supervised no      - no supervision interaction
#   supervised upstart - signal upstart by putting Redis into SIGSTOP mode
#   supervised systemd - signal systemd by writing READY=1 to $NOTIFY_SOCKET
#   supervised auto    - detect upstart or systemd method based on
#                        UPSTART_JOB or NOTIFY_SOCKET environment variables
# Note: these supervision methods only signal "process is ready."
#       They do not enable continuous liveness pings back to your supervisor.
supervised systemd

接下来,寻找 dir 配置, 该参数制定 Redis 存储数据的目录,需要一个 Redis 有写权限的位置,使用 /var/lib/redis.

# The working directory.
#
# The DB will be written inside this directory, with the filename specified
# above using the 'dbfilename' configuration directive.
#
# The Append Only File will also be created inside this directory.
#
# Note that you must specify a directory here, not a file name.
dir /var/lib/redis

修改完毕,保存关闭。

创建 systemd unit

创建 redis.service 文件

sudo vim /etc/systemd/system/redis.service

[Unit] 单元中提供描述,和启动需要在网络可用之后。[Service] 中定义服务的具体动作,自定义用户 redis,以及 redis-server 的地址。

[Unit]
Description=Redis In-Memory Data Store
After=network.target

[Service]
User=redis
Group=redis
ExecStart=/usr/local/bin/redis-server /etc/redis/redis.conf
ExecStop=/usr/local/bin/redis-cli shutdown
Restart=always

[Install]
WantedBy=multi-user.target

创建 redis 用户,组

创建用户,组

sudo adduser --system --group --no-create-home redis

创建文件夹

sudo mkdir /var/lib/redis

给予权限

sudo chown redis:redis /var/lib/redis

修改权限,普通用户无法访问

sudo chmod 770 /var/lib/redis

运行 Redis

启动

sudo systemctl start redis

查看状态

sudo systemctl status redis

显示

sudo service redis status
● redis.service - Redis In-Memory Data Store
   Loaded: loaded (/etc/systemd/system/redis.service; disabled; vendor preset: enabled)
   Active: active (running) since Sat 2017-04-22 18:59:56 CST; 2s ago
 Main PID: 28750 (redis-server)
   CGroup: /system.slice/redis.service
           └─28750 /usr/local/bin/redis-server 127.0.0.1:6379       

Apr 22 18:59:56 ev redis-server[28750]:   `-._    `-._`-.__.-'_.-'    _.-'
Apr 22 18:59:56 ev redis-server[28750]:       `-._    `-.__.-'    _.-'
Apr 22 18:59:56 ev redis-server[28750]:           `-._        _.-'
Apr 22 18:59:56 ev redis-server[28750]:               `-.__.-'
Apr 22 18:59:56 ev redis-server[28750]: 28750:M 22 Apr 18:59:56.445 # WARNING: The TCP backlog setting of 511 cannot be enforced because /proc/sys/net/core/somaxconn is set to the lower valu
Apr 22 18:59:56 ev redis-server[28750]: 28750:M 22 Apr 18:59:56.445 # Server started, Redis version 3.2.8
Apr 22 18:59:56 ev redis-server[28750]: 28750:M 22 Apr 18:59:56.445 # WARNING overcommit_memory is set to 0! Background save may fail under low memory condition. To fix this issue add 'vm.ov
Apr 22 18:59:56 ev redis-server[28750]: 28750:M 22 Apr 18:59:56.445 # WARNING you have Transparent Huge Pages (THP) support enabled in your kernel. This will create latency and memory usage 
Apr 22 18:59:56 ev redis-server[28750]: 28750:M 22 Apr 18:59:56.445 * DB loaded from disk: 0.000 seconds
Apr 22 18:59:56 ev redis-server[28750]: 28750:M 22 Apr 18:59:56.445 * The server is now ready to accept connections on port 6379

使用 redis-cli 客户端测试。

redis-cli

然后运行 ping ,会得到 PONG。

127.0.0.1:6379> ping
PONG
127.0.0.1:6379> set test "It's working"
OK
127.0.0.1:6379> get test
"It's working"
127.0.0.1:6379> exit

然后重启 redis

sudo systemctl restart redis.service

然后进入 redis-cli:

127.0.0.1:6379> get test
"It's working"

如果能够获得,就证明配置好了。

开机启动

sudo systemctl enable redis

reference

参考: https://www.digitalocean.com/community/tutorials/how-to-install-and-configure-redis-on-ubuntu-16-04


2017-04-20 Redis , Database

电影网站评分机制

年前的时候喉舌媒体批评豆瓣,猫眼等评分太低影响了票房,而导致16年的年度票房目标没有达到,广电很生气,后果很严重。可是豆瓣存在了那么多年,那么多的电影,在院线上映的,还是不上映的,从来也没有听说过 IMDB 或者 烂番茄的评分会影响到总体的票房。虽然得分的多少或多或少的会对票房有所影响,可这难道是豆瓣,或者 IMDB 或 烂番茄这样的影评网站应该承担的责任吗? 制片公司,发行商,甚至细化到导演,演员,剧本,在国内甚至可以拉上审查来负责,动不动删掉个14分钟,谁还愿意花了冤枉钱去大荧幕看一个不完整的片子呢?真正的影迷 大概会愿意花个机票钱去看一个完整版吧。

当然也不想过多的吐槽,或许被“认证”也才能证明豆瓣的评分也算良心吧。这里就看看国内玩几家影评站对网站打分的计分规则。其实早在很早就将计算的公式记录在了记事本里面,一直没有整理。而现在想要来整理一下,也是感觉豆瓣评分在一定程度上没有想象的真实,看过一部被恶意差评的国产片,看后感觉并不是5分多的水平,后来看评论才知道其中的某一位演员的黑粉恶意差评才导致这样的结果,而看一些长评论确实客观很多。或许是差评的人,没那么多的时间来写长评吧。所以就像那篇评论中说的那样,“中国电影市场的正常发展,不仅需要好的导演,好的编剧,好的演员,还需要好的观众”。

BGM,找资料时偶得,为某一期奥斯卡缅怀逝去的人时的背景音乐

豆瓣

先来说一说我使用最多的豆瓣,豆瓣也是评分规则中最简单的,豆瓣不人工干预评分,而一部电影的最终得分就是由每个用户的打分的加权平均,举个例子,一个用户打5星,一个用户打3星,一个用户打1星,那么这部片子就是(5+3+1)/3 也就是3星,6分。

豆瓣最后得分的具体公式1

其中, $x_1$ 表示打1颗星的人数,$x_2$ 表示打2颗星的人数,以此类推。由该公式能够看出,豆瓣的评分是很简单的计算,而至少一颗星(2分)的最低评分,也无形中提高了影片的评分,因为豆瓣根本不存在0分的电影,哦,不,还是有的。其实,豆瓣一直是一个满分8分的机制,那些超过8分的电影,是一定不会差的。所以曾经有段时间,找不到片子看的时候就直接找8分以上的片子看。

screenshot-area-2017-04-08-154156

豆瓣的评分机制简单粗暴,在降低用户打分思考的时候,也会造成用户对一部影片的看法截然不同,尤其是在恶意刷分时,会导致最后的评分波动较大。曾经有人开过玩笑说过豆瓣的评分图案,r 型(5星占大多数)的为口碑爆棚的好片,P 型为普通好片,b 型为普通烂片,而 C 型是水军刷出来的烂片,还有 L 型是多少水军都刷不出来的超级烂片。现在想来还是依然非常好玩。

时光网

时光网的存在感近两年被慢慢的抹去,但还依然半死不活的存在,时光网和豆瓣的评分机制一样,都是加权平均,只是时光网采用的是10分制,也就是用户有10个选择,用户需要话时间在评分的分数上,更多的选择,使得绝大部分用户选择中间段进行评分,因而导致最终的评分呈现中庸状态,同样无法真正体现出一部电影的真正得分。

而这样的十分制同样会导致在遭受大规模恶意打分(无论是好评还是差评)之后直接在最终结果中明显体现。

IMDB

IMDB 是国外最大的电影资料站,大家经常提到的 IMDB TOP 250,也就是在该站上评分最高的 250 名。他采用贝叶斯算法,具体的公式2

其中:

  • WR,加权得分 weighted rating
  • R,本影片的平均得分 rating
  • v,评分人数 votes
  • m,基准票数,进入 IMDB Top 250 的最小票数
  • C,站点所有电影的平均分

这个公式的目的是为了让得分更加偏向于平均分,如果投票越多,评分就越接近真实的平均分,否则就越接近所有电影的平均分。而这个公式的唯一人为设定的参数就是基准票数。而这个参数的设定也正是为了解决如何让冷门和热门影片在得分上具有可比性。冷门片不会因为爱好者而导致评分异常高,这个问题也是豆瓣经常遇到的问题,一些冷门韩综,日剧,韩剧在评分上都有一定的偏高。

而关于 IMDB 这个公式是怎么防止恶意刷分,有兴趣可以了解一下当年《蝙蝠侠》和《教父》的往事:

烂番茄

烂番茄主要是专业影评人士评价汇总,和 IMDB 和 豆瓣这样单纯由网名进行投票的评分制度有些不同。而烂番茄通过新鲜度来对电影进行评价,而这里的新鲜度并不是实际意义上的评分,而是由影评人对该影片正面打分的比例来决定的,若正面的评价超过60%以上,该部作品将会被认为是“新鲜”(fresh)。如果正面评价超过 75 % ,那么该作品会得到“Certified Fresh” 的评价,而如果一部作品的正面评价低于60%,那么该作品会被标示为“腐烂”(rotten)。影评人只有两个选项,正面和反面。

烂番茄和其他影评网站的最大区别是,他突出的是人群对一部电影持有的主流观点,而不是一个让每个人都感同身受的数值。

Metacritic

Metacritic 是一个综合性评定网站,影评只是该网站其中的一个小模块,该网站上影评人多以纸媒为主。 Metacritic 的评分主要从主流媒体和专业影评机构聚合而来,这些影评人和其供职的机构大多在影评方面具有公信力,比如《卫报》、《纽约时报》、《时代周刊》等等。但是并不是每一个机构和影评人都给出一个确切的分数。 Metacritic 具体做法是,如果来源有具体评分则使用来源评分,来源有星级打分则换算成百分制,如果来源影评只提供文字,然后他们自己去找人阅读影评,根据读完的感受给分。3

比较

各家网站都有各家的好坏,豆瓣的评分机制是最简单高效的,这也是绝大多数的系统惯常的做法。但正是这样的机制使得刷分异常容易,大批量的差评或者好评能在短时间内影响影片总体的分数。另外一个比较严重的问题就是,无法在冷门片和热门片之间比较,这也是豆瓣官方博客在文章中提及的,热门影片能在短时间内获得几十万的评分,但是一些冷门片,或者一些上映时间比较久远的电影可能难以达到这么多的评分,这样就会导致热门片和冷门片在评分上无法比较。口碑比较好的热门片可能因为观众口味不一而导致评分稍中庸,而冷门片可能因为资深影迷而导致评分过高。因此在豆瓣看评分时,一般还需要看一下评分人数。而最近我也会看一下长评论,毕竟愿意花时间来评价一部影片,远比花1秒打个评分要来的认真。

而 IMDB 的评分方式一定程度上解决了冷门影片和热门影片评分上的差异,但是选择基准票数却也需要经过不断的调整,IMDB 历史上也经历过变化,根据该数据,阈值从 3000 票提升到了 25000 票,这次变换也相应的造成了最后得分的变化,尤其是影响了得到25000票以下,并且得分较高的影片。可以说只有当影片的评分人数足够多时,基准票数的影响才会减至最小,而对于票数比较少的影片,就相当于一次洗牌。

而对于烂番茄和国内的猫眼专家评分,其实一定意义上说代表着专业领域的人士意见,这些评论都值得一读,但是更多的需要自己的看法,只有最后形成自己的世界观那部分东西才真正属于自己。所以豆瓣和IMDB 对于我来说,一方面提供给我足够的信息,包括导演,演员,编剧等等,另一方面也是让我远离烂片,毕竟看一部烂片浪费的是自己的时间。

最后,引用数位时代中的一句话,“在美国,佳片会收到它应得的票房和好评作为奖赏,烂片就算进了电影院也不可能躲得开差评—-无论在报纸、电台还是在网络上。在美国,对电影的批评,也是言论自由保护的一部分”。

若差评不自由,则高分无意义。


2017-04-08 Movie , Douban , IMDB

Openwrt 平均负载

Openwrt 在 Luci 后台很显眼的位置有三个不断刷新的数字,其实这个数字是“平均负载”(Load Average)的意思,这是 Linux 操作系统衡量系统负载和稳定性的重要参数。

平均负载

在 Linux 及各种 Linux 衍生版(包括 Openwrt)中,都可以使用如下命令查看系统平均负载。

uptime 命令:

root@OpenWrt:/# uptime
 21:22:57 up 19:21,  load average: 1.30, 2.44, 2.38

top 命令:

Mem: 119632K used, 6740K free, 0K shrd, 41348K buff, 48152K cached
CPU:   0% usr   0% sys   0% nic  72% idle   0% io   0% irq  27% sirq
Load average: 0.33 1.82 2.17 1/76 16075

w 命令,查看当前系统有谁登录,都在干什么:

$ w
 21:25:04 up 3 days, 11:07,  8 users,  load average: 0.48, 0.52, 0.59
USER     TTY      FROM             LOGIN@   IDLE   JCPU   PCPU WHAT
einverne tty7     :0               Tue10    3days  2:19m  2.39s cinnamon-session --session cinnamon
einverne pts/1    ev               Tue10   37.00s  2.45s  0.32s ssh root@192.168.1.1

直接查看 load average:

$ cat /proc/loadavg 
0.56 0.48 0.56 1/1264 5890

前三个数字表示平均进程数量外,后面一个分数,分子为正在运行进程数,分母表示系统进程总数,最后一个数字表示最近运行进程ID。

load average 显示的3个数字,分别表示:系统在过去1分钟、5分钟、15分钟内运行进程队列中的平均进程数量。 正常情况下的时候就是0到1之间,大于1的时候,表示系统已经没有多余资源了,有些队列就需要等待处理。

短时间大于1是没有影响的,特别是第一个一分钟的数据,但是如果后面两个数据,特别是最后一个,经常大于0.7,就说明,有可能路由器超负荷了。

交通流量来比喻

有一篇 Understanding Linux CPU Load 将负载比喻交通流量,很形象,非常值得一看。

具体来说:

  • 0.00-1.00 之间的数字表示此时路况非常良好,没有拥堵,车辆可以毫无阻碍地通过。
  • 1.00 表示道路还算正常,但有可能会恶化并造成拥堵。此时系统已经没有多余的资源了,管理员需要进行优化。
  • 1.00-*** 表示路况不太好了,如果到达2.00表示有桥上车辆一倍数目的车辆正在等待。这种情况你必须进行检查了。

多核CPU的话,满负荷状态的数字为 “1.00 * CPU核数”,即双核CPU为2.00,四核CPU为4.00。

reference


2017-03-10 Openwrt , Linux

Openwrt 设置

在上一篇中讲了如何刷Openwrt,这一篇主要讲一些 Openwrt 的东西,以及配置相关的内容。我有一个主路由器,设置分配的局域网地址为 192.168.1.x,给内网中分配的地址也是 192.168.1.x 开头。

但是 Openwrt 默认为 AP 模式,我想要从主路由器 LAN 口连出到新的这个 Openwrt 路由器上,那么便得设置 Openwrt 路由器为 Router 模式以便于级联。

在设置路由器模式之前先来看看这几个接口,否则怎么都不会明白怎么配置的。

br-lan, eth0, eth0.1

Openwrt 的接口名字太多,最早接触路由器的时候只知道 WLAN 口,LAN 口,后来接触 Linux 才慢慢知道 eth0, lo 等等接口,但是在 Openwrt 上接口中突然冒出来一堆看着名字熟悉,却不知道什么作用的接口。今天配置 LAN ,WAN 口时还差点把 MR12U 搞砖,幸亏昨天刷了不死 boot。

可以使用 ifconfig 来查看设备,常见的几个端口:

  • lo 虚拟设备端口,自身回环设备,一般指向 127.0.0.1
  • ra0 rai0 成对出现,无线设备,对应各自的 SSID,分别是 2.4G 和 5G
  • pppoe-wan 虚拟设备,常见的拨号宽带上网
  • eth0 物理网卡, eth0.1 或者 eth0.2 都是从此设备虚拟而出。
  • br-lan 虚拟设备,用于 LAN 口设备桥接,用来使得多个虚拟或物理网络接口的行为好像他们仅有一个网络接口一样。目前路由器普遍将有线LAN口(一般四个)和WIFI无线接口桥接在一起作为统一的LAN。可以使用 brctl show 来查看使用情况。
  • eth1 如果路由器有两块网卡,一般 eth1 作为 WAN 口
  • wlan0 一般是无线网卡,无线端口

可以使用如下命令来查看 br-lan 配置

~ brctl show
bridge name bridge id       STP enabled interfaces
br-lan      7fff.64098005e1bb   no      eth0.1 rai0 ra0

br-lan = eth0.1 + rai0 + ra0,即将有线LAN口和无线网统一划分为 LAN。

更改内网地址

LAN 是设置局域网内的相关属性,可以设置内网的IP,桥接的端口。比如我们默认使用192.168.1.1访问,可以修改为192.168.9.1,生效后内网的ip就会变掉。LAN口的协议为【静态地址】。下一次访问路由器管理页面就需要使用 192.168.9.1 了。

Openwrt 修改 LuCI 语言

System->Software->在Filter栏里面输入 -zh-cn 点击搜索

找到 luci-i18n-base-zh-cn 点击前面的安装。然后去设置语言即可。

设置路由器模式

路由器模式也就是最常见的无线模式,通过有线连接至外网并发射无线提供局域网络。由于默认只有 LAN 接口,我们需要添加 WAN 接口。

Openwrt interface screenshot-area-2017-03-08-212320

Openwrt morning配置只有上述图片的 LAN 口,下面的 WAN 口通过如下方法添加。

点击下方的“添加新接口”

screenshot-area-2017-03-08-212349

为了便于区分,接口名称建议使用 WAN。按照网络接入类型,选择 DHCP(从外网自动获取ip地址),静态ip或者PPPoE拨号即可。其它设置如图,请勿选择“在多个接口上创建桥接”,最后点击提交。

screenshot-area-2017-03-08-212405

提交后选择刚刚创建的 WAN 接口,点击“防火墙设置”,选择 WAN 并保存即可。

screenshot-area-2017-03-08-212422

这时需要再次回到 LAN 接口,点击编辑。

screenshot-area-2017-03-08-212808

选择“物理设置”,确保“桥接接口”为选中,接口中不选中“以太网适配器”。确认后保存并应用,至此所有配置完成,连接网线即可使用。

无线桥接模式

无线中继模式使用无线网络接入互联网,并生成一个新的 SSID。无线桥接模式无需更改有线连接接口设置。打开无线接口设置,点击搜索。在自动弹出的设置页面中,填写上级无线密码。新网络的名称使用默认 wwan 即可。防火墙区域选择 wan,在这里请勿选择“重置无线配置”。在保存并应用后就完成了所有设置。

无线AP模式

无线AP模式多应用于公共场所,所有无线设备将被桥接至以太网接口,由上级网关负责 DHCP。在设置完成后 AP 所在路由器将无法访问。

首先打开 LAN 接口或者 WAN 接口,选择“物理设置”,确保“桥接接口”为选中。在下方接口选中“以太网适配器”以及“无线网络”,保存并应用即可。

至于无线加密设置以及 DHCP 设置较为简单,自行在“网络”分类下查找即可。

reference

  • https://roov.org/2014/10/openwrt-setup-guide/
  • https://blog.phpgao.com/openwrt-interface.html
  • http://wizju.com/post/102/
  • http://wizju.com/post/94/
  • http://unix.stackexchange.com/questions/57309/how-can-i-tell-whether-a-network-interface-is-physical-device-or-virtual-alia
  • https://wiki.openwrt.org/zh-cn/doc/networking/network.interfaces
  • https://wiki.openwrt.org/zh-cn/doc/uci/network/switch

2017-03-09 Openwrt , Linux , Opkg

TP LINK MR12U 刷 openwrt

今天翻箱倒柜竟然找出了我的 TP-LINK MR12U,很早之前因为3G上网卡而买的便携式路由,突然脑袋一热,干嘛不试试刷个 Openwrt 呢。记得当时是没有支持的,但是一搜竟然发现了 Openwrt 有官方支持了。于是开始动手。

这里主要记录一下 MR12U v1.0 版本的过程,但是感觉其他路由器异曲同工,掌握了一种方法其他路由器也是类似的原理。刷机的过程有风险,因此一定要做好充分的调查和心理准备。很早之前写过一篇文章讲防止Android刷机变砖 ,我利用其中用到的方法一直刷机至今。说到底,终究要知道自己做的每一步是什么含义,出现的每一个术语是什么含义。

我一直坚信着“授人以鱼不如授人以渔”的理念,因此我在文中会把我参考的所有文章以及想法过程都记录下来,以便于在以后刷其他路由器的时候能够更加快速,并且如果有其他人能看到也能更加明白。

Openwrt

首先什么是 Openwrt,Openwrt 是一个适合嵌入式设备的 Linux 发行版1,相对原厂固件而言,OpenWrt不是一个单一、静态的固件,而是提供了一个可添加软件包的可写的文件系统。这使用户可以自由的选择应用程序和配置,而不必受设备提供商的限制,并且可以使用一些适合某方面应用的软件包来定制你的设备。对于开发者来说,OpenWrt是一个框架,开发者不必麻烦的构建整个固件就能得到想要的应用程序;对于用户来说,这意味着完全定制的能力,与以往不同的方式使用设备,OPKG包含超过3500个软件。 默认使用LuCI作为web交互界面。

因为其强大的扩展性,所以几乎能用 Linux 做到的事情,Openwrt 都能够做到,而如今生活在墙内,路由器很重要的一个功能便是翻墙,结合 Shadowsocks,pdnsd 等等 Openwrt 可以做到透明代理。去除这个硬性需求外,其他比如:

  • 脱机下载
  • SMB
  • SSH
  • 单线多播
  • 远程视频监控
  • 去广告,屏蔽恶意域名

甚至定时关WIFI,开WIFI,都几乎是一行命令。

选择路由器

其实Openwrt 自身维护一个兼容路由器列表 https://wiki.openwrt.org/toh/start 。在购买或者刷机之前都可以看一眼。网上推荐的很多支持比较好,性价比比较高的路由器,NETGEAR 的比较多,WNDR 4300,WNDR 3700 和 WNDR 3800 都是比较流行的路由器。在选择一款路由器上,其实最好的不是性能最强的,而是最适合自己的。知乎上有个回答说得很好:

对于 Openwrt 用户而言,因地制宜合理发挥才是最优选择。对于家用环境而言更适合性能向(千兆局域网、强劲的性能、MIMO&5G hz表现优异),对于差旅党、安全狗而言便携路由器更具备实用性。所以在初入openwrt圈子的前提下建议先上手一款大方向上适合自己的机器。

然后下面是一些链接,在刷机或者购机之前都看一眼比较好:

开刷

在网上搜索了一圈,很少有 MR12U v1.0 版本的教程,倒是找到一个 v2 版本的详细教程。但是 v1 版本的刷机和 v2 相差不大。v2版原帖 http://www.right.com.cn/forum/thread-169358-1-1.html

硬件:TP-MR12U(v1)路由器一个,网线一根,PC一台,戳菊花工具一根。

软件:如果在 Windows 下 需要 TPRouter:用于修改固件版本信息。putty:以命令行方式登陆路由器。WinSCP:上传文件到路由器。 而如果在 Linux 下,打开终端即可。

固件:

(1)对应的 Openwrt 解锁 U-Boot 分区固件,文件名为 openwr-ar71xx-generic-tl-mr11u-v2-squashfs-factory.bin 。看清楚是 11U 的不是12U 的,因为 12U(v1) 和 12U(v2) 硬件不同,12U(v1) 需要使用11U(v2) 的固件。这个也是我们第一次需要刷入的固件。

(2)openwrt 适用于MR12Uv1的官方固件,文件名为 openwrt-15.05.1-ar71xx-generic-tl-mr12u-v1-squashfs-factory.bin。如果你不在意用的openwrt不是最新版的话可以不用。

(3)不死boot固件,文件名为 breed-ar9331-mr12u.bin。

刷机过程:

  1. 开机状态下按住路由器reset按5秒,重置路由器。
  2. 连上wifi,进入192.168.1.1,系统工具 -> 软件升级,刷入 openwr-ar71xx-generic-tl-mr11u-v2-squashfs-factory.bin,等上几分钟
  3. 用lan线连接路由器和电脑,会发现已经变成openwrt的界面了,在后台修改密码,打开无线功能。
  4. 如果需要刷 不死 u-boot ,可以参考原贴.
  5. 具体过程总结,使用 ssh root@192.168.1.1 连上路由器

     root@mr12u:/tmp# ifconfig eth0
    
     eth0      Link encap:Ethernet  HWaddr XX:XX:XX:XX:XX:XX  
               UP BROADCAST RUNNING MULTICAST  MTU:1500  Metric:1
               RX packets:16514 errors:0 dropped:0 overruns:0 frame:0
               TX packets:13371 errors:0 dropped:0 overruns:0 carrier:0
               collisions:0 txqueuelen:1000 
               RX bytes:2388356 (2.2 MiB)  TX bytes:2518125 (2.4 MiB)
               Interrupt:4 
    
     记住上述 HWaddr 后面 MAC 地址,后面会用到。
    
  6. 上传 breed-ar9331-mr12u.bin 使用 scp breed-ar9331-mr12u.bin root@192.168.1.1:/tmp/
  7. 再使用 ssh 连山路由器,使用如下命令

     cd /tmp
     mtd write breed-ar9331-mr12u.bin u-boot
     # 成功后 reboot 重启路由器即可。
    
  8. 如果这一步出现如下信息,是使用了 Openwrt 官方的固件,默认是锁了 u-boot 的。

     Could not open mtd device: u-boot
     Can't open device for writing!
    
  9. 当前的 Openwrt 锁了 u-boot 分区,需要刷入一个未锁分区的 Openwrt 固件,可以上论坛找一下,将解锁分区的固件上传到 /tmp 目录,使用 mtd 命令写入固件 firmware 分区。

    cd /tmp mtd write openwr-ar71xx-generic-tl-mr11u-v2-squashfs-factory.bin firmware

  10. 刷入了 u-boot 分区后可按照如下步骤进入 u-boot 控制台。
  11. 路由器和电脑连接,在关机状态下,使用工具按住 reset 按钮不放,打开路由器开关,过一会儿看到蓝色灯亮一下,再过一会儿看到蓝色灯闪4下,松开 reset 按钮,在浏览器输入 192.168.1.1 进入 u-boot 界面。
  12. 修改 MAC 地址, u-boot 会将 MAC 地址重置,需要将 MAC 地址还原回来,不然有些功能无法使用,比如无线功能,将之前备份好的 MAC 地址放入 TP-LINK 设置下的 MAC 地址位置。
  13. 如果想要刷入新固件,直接在 u-boot 中固件更新刷入新固件即可。

reference


2017-03-08 Openwrt , Linux , Router

使用 Cron 定时重启 Openwrt 路由器

最近了解了一下 Cron,也在 WinNote 记录了一些笔记。学习一个新命令最好的方法就是将其用于实践。于是正好在 Openwrt 路由器上跑一下。

定时任务

使用 crontab -e 编辑 Openwrt 的定时任务,添加如下

# Reboot at 4:30am every day
# Note: To avoid infinite reboot loop, wait 70 seconds
# and touch a file in /etc so clock will be set
# properly to 4:31 on reboot before cron starts.
30 4 * * * sleep 70 && touch /etc/banner && reboot

这个 task 将在每天 4:30am 的时候重启路由器。

需要注意的是,一定要延迟重启,否则可能无限重启,官方给出的配置1中,在 sleep 70 秒之后,使用 touch 写文件,应为路由器如果没有及时联网从NTP服务器上获取到实践,那么路由器的系统时间和重启的系统时间便一样,如果修改过文件,Openwrt 开机后会把最后修改或者访问的文件时间作为默认系统时间。因此延迟1min重启,可以避免这个问题。

cron 语法

一个 crontab 的配置文件,通过前五个域来表示时刻,时期,甚至是时间段。每一个域中,可以包含 * 或者逗号分割的数字,或者 - 连接的数字。

*     *     *   *    *        command to be executed
-     -     -   -    -
|     |     |   |    |
|     |     |   |    +----- day of week (0 - 6) (Sunday=0)
|     |     |   +------- month (1 - 12)
|     |     +--------- day of month (1 - 31)
|     +----------- hour (0 - 23)
+------------- min (0 - 59)
  • * 号表示任意
  • 逗号分割表示时刻
  • 短横线连接,表示时间段。
  • / 表示间隔, 如果第一个域为 /2 ,则表示每隔两分钟

而空格分割的六个域分别表示:

  • 第1列分钟,取值范围 0~59
  • 第2列小时0~23(0表示子夜)
  • 第3列日1~31
  • 第4列月1~12
  • 第5列星期0~7(0和7表示星期天)
  • 第6列要运行的命令

注意事项:

  1. 重复格式 /2 表示没两分钟执行一次 或者 /10 表示每10分钟执行一次,这样的语法格式并不是被所有系统支持。
  2. 具体某一天的指定,可以由第三项(month day)和第五项(weekday)指定,如果两项都被设定,那么 cron 都会执行。

更多具体关于 crontab 的内容,可以参考 WizNote


2017-03-07 Linux , crontab , Openwrt , Router

整站备份工具 Httrack

HTTrack 根据官方的介绍1,是一个易用的离线浏览工具,他允许用户从万维网中离线备份某一个网站,包括建立层叠的目录,HTML,图片,以及其他文件。工具在 GPL 协议下开源。

最近主要是因为想要备份 http://www.runningman2015.com/guidang/ 这个网站,突然想到了这个工具。在此之前曾经想要自己用 scrapy 提取网站结构,然后存到数据库,想了一下,直接一个命令可以实现的事情,完全可以不用 scrapy 了。

安装

在許多Unix-like系統下,只需要用包管理工具安裝httrack即可。例如Debian使用

sudo apt-get install httrack webhttrack

该工具集包含一个命令行 httrack 和 一个WEB界面的 webhttrack。如果想要直观的运行 HTTrack,可以直接使用 webhttrack。 HTTrack 官方提供 Windows 版本,可以直接去官网1下载。

例子

一個使用例子:

httrack "http://www.runningman2015.com/" -O "/home/einverne/rm/" "+*.runningman2015.com/*" -v

它的意思是:以http://www.runningman2015.com/ 为起始URL,输出到 /home/einverne/rm/ 文件夹,范围是 runningman2015.com 域名下的所有文件,并显示所有错误信息(verbose)。

其他参数

O 镜像后本地路径 -O path/to/local

w 镜像网站 (–mirror) W mirror web sites, semi-automatic (asks questions) (–mirror-wizard) 更加自动化的备份

更多参考官网手册2

当然新手也可以直接运行 httrack 命令,该命令会自动产生一个向导,选择123 即可。

其他工具

名称 网址 平台 优缺点
Teleport Pro http://www.tenmax.com/teleport/pro/index.htm Windows 整站备份,网站结构清晰,只支持单一平台,收费
Cyotek WebCopy https://www.cyotek.com/cyotek-webcopy Windows with .NET 4.6 整站备份,免费

缺点

镜像站点功能很强大,但是下载离线的数据非结构化数据,镜像功能对与纯静态HTML站点非常有效,但是对于目前互联网上的大部分 JS 动态网站却无能为力,镜像后容易都是内容。


2017-03-06 Linux , Httrack , backup

Google+

最近文章

  • 知乎上被删除的良心回答之油猴脚本 今天偶然间看到一个知乎问题:“最良心的软件可以良心到什么程度?”,当时在 Google+ 上点进去粗略看了一样,看到油猴脚本也就坦然了,而添加到稍后阅读,在晚上回来之后准备细看时却惊讶于知乎屏蔽的速度,在尝试使用 Google,bing 和 web archive ,baidu 的历史记录之后终于找回了一些渣滓。
  • Ubuntu/Debian install nginx installation sudo apt-get install nginx
  • celery best practice 不要使用数据库作为 AMQP Broker 随着worker 的不断增多可能给数据库IO和连接造成很大压力。 Docker 上很多 相关的镜像。
  • Git 使用过程中遇到的小技巧 Git 使用过程中遇到的小技巧,平时没有 commit, merge, branch 用的那么勤快,但是需要时也需要查看一下,因此记录一下,以免忘记。
  • URL 短域名 逛博客看到别人在讨论短URL的设计实现,然后偶然间发现了 GitHub 曾经推出1过的短域名服务 Git.io https://github.com/blog/985-git-io-github-url-shortener ↩