mitmproxy 抓包

在之前的文章Android 抓包 中介绍过 Mac 下 Charles 进行客户端的抓包,那篇文章中最后介绍其他工具的时候提到了 mitmproxy 这样一款命令行工具,最近使用来看,也是非常强大的工具。这里就简单记录一下。

mitmproxy 是用 Python 和C 开发的一款支持 HTTP(S) 的中间人代理软件(man-in-the-middle proxy),不同于Fiddler2,burpsuite等类似功能工具,mitmproxy可在终端下运行并且可以用来拦截、修改、重放和保存HTTP/HTTPS 请求。mitmproxy 可以辅助 WEB 及客户端调试、开发和测试,是一个渗透测试的工具。

安装

sudo apt-get install python3-pip python3-dev libffi-dev libssl-dev libtiff5-dev libjpeg8-dev zlib1g-dev libwebp-dev
sudo pip3 install mitmproxy  # or pip3 install --user mitmproxy

或者从源里面拉,但是可能不是最新版本

sudo apt install mitmproxy

我从源里面拉的版本为 0.15 版,而 pip3 安装的为 1.02 版本,相差版本足有一年。

工作原理

mitmproxy 实现原理:

  1. 客户端发起一个到 mitmproxy 的连接,并且发出HTTP CONNECT请求,
  2. mitmproxy 作出响应(200),模拟已经建立了CONNECT通信管道,
  3. 客户端确信它正在和远端服务器会话,然后启动SSL连接。在SSL连接中指明了它正在连接的主机名(SNI),
  4. mitmproxy 连接服务器,然后使用客户端发出的 SNI 指示的主机名建立SSL连接,
  5. 服务器以匹配的 SSL 证书作出响应,这个 SSL 证书里包含生成的拦截证书所必须的通用名(CN)和服务器备用名(SAN),
  6. mitmproxy 生成拦截证书,然后继续进行与第3步暂停的客户端SSL握手,
  7. 客户端通过已经建立的SSL连接发送请求,
  8. mitmproxy 通过第4步建立的SSL连接传递这个请求给服务器。

how-mitmproxy-works-transparent-https

mitmproxy 工作步骤:

  1. 设置系统\浏览器\终端等的代理地址和端口为同一局域网中 mitmproxy 所在电脑的 IP 地址,比如我的PC 开启 mitmproxy 之后,设置 8080 端口,本地IP 为 192.168.1.130,那么设置 Android HTTP 代理为 192.168.1.130:8080
  2. 浏览器或移动端访问 mitm.it 来安装 mitmproxy 提供的证书
  3. 在 mitmproxy 提供的命令行下,或者 mitmweb 提供的浏览器界面中就能看到 Android 端发出的请求。

官方提供的安装方式:http://mitmproxy.org/doc/certinstall.html

三个命令

在完成 mitmproxy 的安装之后,mitm 提供的三个命令

  • mitmproxy 会提供一个在终端下的图形界面,具有修改请求和响应,流量重放等功能,具体操作方式有点vim的风格
  • mitmdump可设定规则保存或重放请求和响应,mitmdump的特点是支持inline脚本,由于拥有可以修改request和response 中每一个细节的能力,批量测试,劫持等都可以轻松实现
  • mitmweb 提供的一个简单 web 界面,简单实用,初学者或者对终端命令行不熟悉的可以用 mitmweb 界面

mitmproxy 基本使用

可以使用 mitmproxy -h 来查看 mitmproxy 的参数及使用方法。常用的几个命令参数:

  1. -p PORT, --port PORT 设置 mitmproxy 的代理端口
  2. -T, --transparent 设置透明代理
  3. --socks 设置 SOCKS5 代理
  4. -s "script.py --bar", --script "script.py --bar" 来执行脚本,通过双引号来添加参数
  5. -t FILTER 过滤参数

在 mitmproxy 命令模式下,在终端显示请求流,可以通过 Shift + ? 来开启帮助查看当前页面可用的命令。

基本快捷键

b  保存请求/返回头
C  将请求内容导出到粘贴板,按 C 之后会有选择导出哪一部分
d  删除flow 请求
E  将 flow 导出到文件
w  保存所有 flow 或者该 flow
W  保存该 flow
L  加载保存的 Flow
m  添加/取消 Mark 标记,会在请求列表该请求前添加红色圆圈
z  清空flow list 和 eventlog
/  在详情界面,可以使用 / 来搜索,大小写敏感
i  开启 interception pattern 拦截请求

移动

j, k       上下
h, l        左右
g, G   go to beginning, end
space    下一页
pg up/down   上一页/下一页
ctrl+b/ctrl+f    上一页/下一页
arrows 箭头     上下左右


全局快捷键
q   退出,或者后退
Q  不提示直接退出

同样在 mitmproxy 中不同界面中使用 ? 可以获取不同的帮助,在请求详细信息中 m 快捷键的作用就完全不同 m 在响应结果中,输入m可以选择body的呈现方式,比如json,xml等 e 编辑请求、响应 a 发送编辑后的请求、响应。 因此在熟悉使用 ? 之后,多次使用并熟悉快捷键即可。就如同在 Linux 下要熟悉使用 man 命令一样,在不懂地方请教 Google 一样,应该是习惯性动作。多次反复之后就会变得非常数量。

使用脚本

使用 s 参数制定 inline 脚本

mitmproxy -s script.py

比如将指定 url 的请求指向新的地址

用于调试Android 或者 iOS 客户端,打包比较复杂的时候,强行将客户端请求从线上地址指向本地调试地址。可以使用 mitmproxy scripting API mitmproxy 提供的事件驱动接口。

加上将线上地址,指向本地 8085 端口,文件为 redirect_request.py

#!/usr/bin/env python
# -*- coding: UTF-8 -*-
def request(flow):
    if flow.request.pretty_host == 'api.github.com':
        flow.request.host = '127.0.0.1'
        flow.request.port = 8085

则使用 mitmweb -s redirect_request.py 来调用此脚本,则通过 mitm 的请求都会指向本地。

更多的脚本可以参考:https://github.com/mitmproxy/mitmproxy/tree/master/examples/simple

一个完整的HTTP flow 会依次触发 requestheaders, request, responseheadersresponse

启用 SOCKS5 代理

添加参数 --socks 可以使用 mitmproxy 的 SOCK5代理

透明代理

透明代理是指将网络流量直接重定向到网络端口,不需要客户端做任何设置。这个特性使得透明代理非常适合不能对客户端进行配置的时候,比如说 Android 应用等等。

几个问题

对于 Openwrt 的路由器,在无线接口配置中一定要注意查看,“禁止客户端之间的通信”这个选项不启用。或者在 /etc/config/wireless 配置中, wifi-iface 配置中

option isolate 0

为关闭状态,否则无法让无线局域网中的设备之间通信。

reference


2017-02-27 mitmproxy , Android

我的一加3手机设置

最近屏幕摔碎了一次,维修过程中无奈抹掉了所有数据,于是只能从头开始开搞。这里只是简单的记录一下,以免哪一天又有同样的悲剧发生,当然不可能再有下次了。

刷回原厂设置

对于 Nexus 机型来说,Google 都提供了原厂镜像,一加同样也是,可以从官网下载 ,不过亲身经历一加官网的好多链接都挂掉了,直接从 xda 找反而要方便许多。官网的链接使用迅雷下载还遭遇了掉包,所以对于刷机包,一定要验证md5,一定一定。

刷 Oxygen OS (氧OS) , 有很多方法,如果使用的 stock recovery ,可以使用 adb sideload full-rom.zip 来刷入(官网有详细教程)。 而如果安装了 TWRP 或者 twrp-3.0.2-0_blu_spark_v11-op3.img 等等第三方的 recovery , 可以直接在 recovery 中 install ROM。虽然间隔遇到了一些问题,在使用 recovery 刷机的时候遇到 “this package is for OnePlus 3 devices this is one plus 3”,这样奇怪的错误。但是最后找原因还是因为 recovery 的关系,使用 TWRP 3.0.2 及以前的版本即可,或者 blu spark 的版本都可以完美解决。

root

使用下面地址给出的 superSu, systemless 可以完美root。

https://forum.xda-developers.com/oneplus-3/how-to/oneplus-3-how-to-unlock-bootloader-t3398733

xda 终究是一切的开端,很多内容都是从这边开始,然后被无数人复制粘贴搬运到互联网的各个角落。因此,遇到任何刷机或者root,或者 Android 相关的任何折腾的问题,用英语关键词来这里搜索有的时候比直接在 Google 搜索要灵得多。这有的时候就像是要查找某一款产品的型号或者功能时,直接在 jd.com 或者 淘宝搜索要来的快得多。或者垂直搜索领域确实值得深入发展一下,感觉这也是 Google 越来越担心亚马逊存在的原因之一吧。

修改 DPI

在root之后,开机进入,就会发现一加默认的DPI 实在感人,远看像老人机,每一个图标都老大老大。Oxygen OS 默认的DPI是 480,实际使用感受设置在 420 到 440 最佳。基本上Launcher 中一行 5 个 图标,原始设置一行只能放下 4 个图标。

一加3 修改 DPI ,可以有很多方法,最最简单的方法就是下载 Le DPI Changer 这个应用,直接在应用中修改(记得上一次可以修改成功,但是这一次差点将系统搞坏,这里要注意,修改 build.prop 文件一定要备份,否则有可能遇到无法开机的情况。幸亏这一次在系统中找到了 build.prop 的备份,在 recovery 中恢复了之前的设置)。

另外一种情况就是,直接修改 /system/build.prop 系统目录下的 build.prop 文件,直接修改文件内容。

ro.sf.lcd_density=420

同样也可以利用 BuildProp Editor 应用来修改,开启应用,右上角设置,中添加,键为 ro.sf.lcd_density ,值为 420 的条目。重启手机便可以生效。记住修改 build.prop 文件,以及任何系统文件一定要备份系统,或者可以在 recovery 中能够恢复修改的内容,否则有可能无法开机。建议使用 BuildProp Editor 这个应用来修改。

Magisk

从 Play Store 中下载 Magisk Manager,安装打开,保证ROOT,此时从 Magisk 中更新组件,重启,即可。

下文中的 boot.img 不要轻易刷入,其他未经验证的 boot.img 也不要轻易刷入。 https://forum.xda-developers.com/oneplus-3/how-to/guide-oneplus-3-magisk-install-android-t3433093

https://forum.xda-developers.com/apps/magisk/official-magisk-v7-universal-systemless-t3473445

Xposed

在安装好 Magisk 之后,从 Magisk 中可以选择安装 Xposed ,然后参照之前整理过的文章 我使用的 Xposed Module 安装一遍。还很快。

如果不想使用 Systemless 的 Xposed ,可以使用官网的地址,直接从 recovery 中刷入。

Kernel

一直使用的 ElementalX 的 kernel ,直接从 Play Store 上下载 ElementalX Manager,在应用中安装即可,应用会自动选择相应的版本。

中间遇到的几个问题

The dm-verity is not started in enforcing mode

原厂给我刷了 Android 7.0 的系统,在开机的时候除了解锁 bootloader 的提醒之外,还多了这个提醒,猜测可能是 Android 7.0 导致的,在刷完 Oxygen OS 3.2.8 (Android 6.0.1) 之后,这个提示就消失了。

Adblocker 被移除

在原本的 Xposed 列表中我曾经写过, Adblocker 这样一款广告去除 Module,但是这个 module 莫名其妙被 Xposed 仓库和 xda 移除,没有任何消息。有人说是因为有木马导致的,但是我更加觉得是因为去广告有用,得罪了不少人才导致下架的。

更多的细节可以参考下面的文章:

  • https://forum.xda-developers.com/xposed/happened-to-adblocker-t3453144
  • https://forum.xda-developers.com/android/general/guide-ad-blocking-t3218167
  • https://www.reddit.com/r/xposed/comments/50s0ow/discussion_the_adblocker_module_has_been_removed/

不过还是能从 Coolapk.com 来下载到下架版本。个人感觉还是能够屏蔽很多广告的。

至此所有系统级别设置都已经完成。附上一张桌面

OnePlus3 Wallpaper

reference


2017-02-26 OnePlus , Android , Xposed , Magisk , Root

终端使用 sock5 代理

为了解决 Linux Mint/Ubuntu 下安装 Dropbox 的问题,而认识了 proxychains。proxychains 是 Linux 下的代理工具,他允许其他程序通过其代理上网,支持 HTTP, SOCKS4 和 SOCKS5 类型的代理服务器,并可配置多个代理方式。

一直使用的 Dropbox 因为其被屏蔽,所以安装及使用必须通过代理,而 Shadowsocks 作为天然的 socks5 代理成为了最佳选择,在安装 Dropbox(Linux) 之后,设置中可以设置 Socks5 代理。于是剩下的问题便是,如何安装 Dropbox 了。在 Dropbox 官网下载的安装程序会自动下载相关组件,但是因为没有走代理,几乎在直连的情况下无法成功。所以在解决这个问题的时候知道了 proxychains。在了解其作用之后,发现也可以利用其特性来达到在 Linux 终端下让任何命令走代理的目的。

安装 Proxychains

安装 proxychains 可以有很多方法,最简单的方式就是使用 apt

sudo apt install proxychains

如果想要使用最新版,也可以自己手动编译源码

# 安装
git clone https://github.com/rofl0r/proxychains-ng.git
./configure --prefix=/usr --sysconfdir=/etc
make
sudo make install
sudo make install-config

配置

在安装完成之后,一般在 /etc/proxychains.conf 处会有默认配置文件,编辑该文件

sudo vim /etc/proxychains.conf
# 然后将如下内容添加到文件末
socks5 127.0.0.1 1080

# 开启本地 socks5 代理

然后使用

proxychains dropbox start -i

就可以启动 Dropbox 安装程序。

或者使用

proxychains wget url

使用 curl ip.gs 来验证是否成功

$ curl ip.gs 
当前 IP:124.xxx.xxx.xxx 来自:中国北京北京 电信

$ proxychains curl ip.gs
ProxyChains-3.1 (http://proxychains.sf.net)
|DNS-request| ip.gs 
|S-chain|-<>-127.0.0.1:1080-<><>-4.2.2.2:53-<><>-OK
|DNS-response| ip.gs is 45.116.12.10
|S-chain|-<>-127.0.0.1:1080-<><>-45.116.12.10:80-<><>-OK
当前 IP:106.xxx.xxx.xxx 来自:日本东京都东京linode.com kddi.com

来现在任何内容

延伸

在配置完 proxychains 之后,在终端如果任何命令无法连接成功时,在其前加上 proxychains 就可以走代理方式来执行该命令。

在网上查阅的时候同样发现还有其他类似的工具,比如 polipo,这是一个 socks5 转 http 的代理,设置之后可以使用 export http_proxy=http://localhost:port 来让终端走代理。`

reference


2017-02-25 Socks5 , Linux , Proxy , Ternimal

fastboot and adb 工具

早之前曾经写过过一篇文章总结 adb 的常用命令,这次刷机也复习了一些命令,这里再补充一下刷机中必不可少的 fastboot 命令。

就像之前adb中说过的那样, adb 用来向开机的 Android 设备发送指令,而 fastboot 则是向开机的 Android bootloader 来发送指令,因此在刷机过程中,如果手机重启进入 bootloader 基本之后使用的 命令都离不开 fastboot。比如在安装第三方 recovery 时,要用到 fastboot flash recovery recovery.img 这样的指令。虽然不能依靠此命令来刷入ROM,但是 fastboot 也能够做一些 adb 命令无法实现的功能。

bootloader

关于 bootloader 部分可以参考 之前的文章

fastboot

adb 和 fastboot 两个工具都是跟随着 Android SDK 分发的,但是由于这两个工具需求过高,Google 单独提供了两个工具集的下载

在下载之后,需要将文件路径添加到系统环境变量中,以便于在各个路径下访问。

假设加压后的路径为 ~/Android/Sdk/platform-tools/, 那需要在 ~/.bashrc 或者 ~/.zshrc 中配置。

export PATH="$PATH:/home/einverne/Android/Sdk/platform-tools"

WIndows 同理,在系统配置环境变量。

然后在终端下使用 adb devices ,就能够查看连接的设备。同样在 bootloader 下,也可以使用 fastboot devices 来查看连接设备,如果未出现已经USB连接的设备,查看驱动是否安装完好即可。


2017-02-25 Android , Fastboot , adb

Android 反编译

本文介绍 Android 反编译工具,只介绍工具名字及工具简单使用,详细开来再具体讲吧。

概述

主要需要依靠如下几个工具

  • apktool:A tool for reverse engineering Android apk files 查看 APK 包中的 AndroidManifest.xml 等 XML 资源文件
  • dex2jar:Tools to work with android .dex and java .class files 将 APK 包中的 Dalvik 字节码文件(.dex)转换为 .jar 文件
  • JD-GUI:Java Decompiler is a tools to decompile and analyze Java 5 “byte code” and the later versions 查看 .jar 文件的 Java 源码

相关项目及工具地址后文贴出。

使用方法

apktool

Apktook 是一个反编译(reverse engineering) 工具,可以用来反编译Android APK。 几乎可以将APK中的 resources.arsc, classes.dex9.png 以及 XMLs 等等源文件反编译得到。

安装需要:

  1. JRE 1.7
  2. 关于 Android SDK, AAPT 以及 smali 的基本知识

地址: https://ibotpeaches.github.io/Apktool/

安装

安装指南

  1. 右击链接 讲 Linux 的脚本保存为 apktool.
  2. 下载 apktool.jar (https://bitbucket.org/iBotPeaches/apktool/downloads/)
  3. 确保 Linux 64 位系统中安装了 ia32-libs,使用 apt search ia32 ,然后 apt install ia32-libs 安装
  4. 将下载的 apktool-x.x.x.jar 重命名为 apktool.jar
  5. apktool.jarapktool 移动到 /usr/local/bin 目录中,root needed
  6. 给予以上两者执行权限 chmod +x
  7. 在终端执行 apktool

使用

  1. 拿到 APK 安装包,比如 xxx.apk
  2. 在APK同目录下,执行 apktool d xxx.apk
  3. 目录下会多一个与 APK 同名的文件夹,是解压后的 APK,其中的 XML 资源文件和各种 drawable 图片资源等可以直接看, 不想看 XML 文件的话,可以不用 apktool,直接将 APK 后缀改为 .zip 后解压即可,此时得到的解压目录中的结构和 apktool 解的是一样的,但是 XML 都处在压缩状态不能看。

Apktool 其实还可以用来做另外一件事情,就是汉化,或者将语言包替换之后,重新打包,此时需要使用 apktool b xxx.apk 来重新打包 APK。

dex2jar

地址:https://github.com/pxb1988/dex2jar

  1. 不使用 apktool,直接修改后缀解压 APK,将解压后 APK 中的 .dex 文件复制到 dex2jar 目录下
  2. 进入该目录执行 ./d2j-dex2jar.sh xxx.dex(注意赋予该 shell 可执行权限 chmod +x d2j-dex2jar.sh)

JD GUI

地址:http://jd.benow.ca/

  1. dex2jar 目录下会多一个 .jar 文件,用 GUI 工具 JD-GUI 打开看,就可以了(当然,混淆过的代码中变量名都是 a, b, c, d)

Update

后来 Google 搞了一个 ClassyShark,看起来不错,不过还没来得及尝试

http://classyshark.com/

还有一个 不错的 smali 查看插件看起来也不错,还未尝试

https://github.com/JesusFreke/smali

另外有一个 MAC 专属的一键反编译工具,可以一试:

https://github.com/Jermic/Android-Crack-Tool


2017-02-22 Android , Java , Apktook , Google

HBase Shell Command

HBase Shell 是 HBase 提供的一个简单方便的命令行工具,用它可以直接操作 HBase,对 HBase 进行各种设置。 HBase Shell 提供的命令可以对对 HBase 数据进行增删改查。在上一篇HBase 介绍中对 HBase 做了简答的介绍,也初识了一些命令行。

根据官方的解释 Apache HBase Shell 是 (J)Ruby 下的 IRB(Interactive Ruby Shell),任何在 IRB 下的命令,在 HBase Shell 下都可以使用。1

可以在启动 HBase 之后,通过 $ ./bin/hbase shell 来进入 HBase Shell。

常用命令

基础命令

  • status

    查询服务器状态

  • version

    查询 HBase 版本

  • whoami

    查看连接用户

基本 SHELL 命令

查询所有表名

列举数据库中所有表

list

创建表

create 命令

create 'table_name', 'cf1', 'cf2'

其中的 cf1 和 cf2 为列族名1,列族名2,列族需要在见表时确定,列则不需要, Column Family 是 Schema 的一部分,设计时就需要考虑。

测试表是否存在

exists 'table_name`

会显示表是否存在:

hbase(main):002:0> exists 'test'
Table test does exist
0 row(s) in 0.2650 seconds

增加记录

put 命令

插入数据,对于同一个 rowkey,如果执行两次 put,则认为是更新操作

put 'table_name', 'rowkey', '列族名1:列名1', 'value'

put 't1', 'r1', 'c1', 'value', ts1 一般情况下 ts1(时间戳) 可以省略, Column 可以动态扩展,每行可以有不同的 Column。

增加指定表,行或者列的值

incr

显示表结构

describe 命令查看表结构,显示HBase 表 schema,以及 column family 设计

describe 'table_name'

查询表行数

计算表的行数,count 一般比较耗时,使用

count 'table_name'

查询所有 rowkey

count 'table_name', { INTERVAL => 1 }

查询记录

get 命令获取数据,HBase 的shell操作,大概顺序就是命令后接表明,rowkey,列名然后在后面用花括号加上其他条件。

获取指定rowkey的指定列族指定列的数据,每个Column 可以有任意数量的 Values,按照 Timestamp 倒序自动排序,可以使用 scan 'table_name', {VERSIONS => 10} 来验证,详细请查看 scan 命令

get 'table_name', 'rowkey', '列族名:列名'

获取指定rowkey的指定列族所有的数据

get 'table_name', 'rowkey', '列族名'

获取指定rowkey的所有数据

get 'table_name', 'rowkey'

获取指定时间戳的数据

get 'table_name', 'rowkey', {COLUMN=>'列族名:列', TIMESTAMP=>1373737746997}

获取多个版本值,查询默认返回最新的值

get 'table_name', 'rowkey', {COLUMN => '列族名:列名', VERSIONS => 2}

HBase 按照rowkey 字典序(1, 100, 102, 20) 自动排序,每行包含任意数量 Column,每列按照 列名 Column Key 排序。如果有列族 cf,其中有列 cf:a, cf:b, cf:c, 则按照字典序排序。

每个数据由 TabelName+RowKey+Column+Timestamp=>Value 唯一确定。

删除记录

delete 命令删除表中数据,delete 命令只能用来删除某一列。

删除指定 rowkey 的指定列族的列名数据

delete 'table_name', 'rowkey', '列族名:列名'

删除指定 rowkey 指定列族的数据

delete 'table_name', 'rowkey', '列族名‘

使用 deleteall 命令来删除 rowkey 所有 column 的Value,删除整行数据

deleteall 'table_name', ’rowkey'

删除表

在删除表之前需要使用 disable 命令,让表失效。在修改表结构时,也需要先执行此命令

disable "table_name'

删除表使用 drop 命令

drop 'table_name'

使表有效

enable 命令,和 disable 命令对应

enable 'table_name'

修改表结构

alter 修改表的结构,新增列族,删除列族。在修改之前要先 disable ,修改完成后再 enable

新增列族

alter 'table_name', ‘列族'

删除列族

alter 'table_name', {name=>‘列族’, METHOD=>'delete'}

列族不能被重命名,通常创建新列族名,将数据复制过去,并删除旧的列族名。

hbase(main):049:0> alter 'test','cf2'
Updating all regions with the new schema...
1/1 regions updated.
Done.
0 row(s) in 1.7520 seconds
hbase(main):050:0> describe 'test'
DESCRIPTION                                                                                                                               ENABLED
 'test', {NAME => 'cf', DATA_BLOCK_ENCODING => 'NONE', BLOOMFILTER => 'NONE', REPLICATION_SCOPE => '0', VERSIONS => '3', COMPRESSION => ' false
 NONE', MIN_VERSIONS => '0', TTL => '2147483647', KEEP_DELETED_CELLS => 'false', BLOCKSIZE => '65536', IN_MEMORY => 'false', ENCODE_ON_DI
 SK => 'true', BLOCKCACHE => 'true'}, {NAME => 'cf2', DATA_BLOCK_ENCODING => 'NONE', BLOOMFILTER => 'NONE', REPLICATION_SCOPE => '0', COM
 PRESSION => 'NONE', VERSIONS => '3', TTL => '2147483647', MIN_VERSIONS => '0', KEEP_DELETED_CELLS => 'false', BLOCKSIZE => '65536', ENCO
 DE_ON_DISK => 'true', IN_MEMORY => 'false', BLOCKCACHE => 'true'}
1 row(s) in 0.1680 seconds
hbase(main):052:0> alter 'test', {NAME => 'cf2', METHOD => 'delete'}
Updating all regions with the new schema...
1/1 regions updated.
Done.
0 row(s) in 1.5880 seconds
hbase(main):053:0> describe 'test'
DESCRIPTION                                                                                                                               ENABLED
 'test', {NAME => 'cf', DATA_BLOCK_ENCODING => 'NONE', BLOOMFILTER => 'NONE', REPLICATION_SCOPE => '0', VERSIONS => '3', COMPRESSION => ' false
 NONE', MIN_VERSIONS => '0', TTL => '2147483647', KEEP_DELETED_CELLS => 'false', BLOCKSIZE => '65536', IN_MEMORY => 'false', ENCODE_ON_DI
 SK => 'true', BLOCKCACHE => 'true'}
1 row(s) in 0.2010 seconds

全表扫描

scan

全表扫描

hbase(main):043:0> scan 'test', {VERSIONS => 12}
ROW           										COLUMN+CELL
 rowkey1                                               column=cf:a, timestamp=1487295285291, value=value 3
 rowkey1                                               column=cf:a, timestamp=1487294839168, value=value 2
 rowkey1                                               column=cf:a, timestamp=1487294704187, value=value 1

```

删除全表数据 truncate

删除全表数据,这个命令也是 disable,drop,create命令组合而成。

truncate 'table_name'

hbase shell 脚本

shell 命令,把所有的 hbase shell 命令写到一个文件内,类似与 Linux shell 脚本顺序执行所有命令,可以使用如下方法执行。

hbase shell test.hbaseshell

reference

下面是比较完整的一个列表:

https://learnhbase.wordpress.com/2013/03/02/hbase-shell-commands/

官方reference

http://hbase.apache.org/book.html


2017-02-18 HBase , Linux , Apache

HBase 基本使用

Hbase – Hadoop Database,是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文《Bigtable:一个结构化数据的分布式存储系统》。HBase 是 Google Bigtable 的开源实现,就像 Bigtable 利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于 Bigtable的能力,利用 Hadoop HDFS 作为文件系统,利用 Hadoop MapReduce 来处理 HBase 中海量数据,利用 Zookeeper 作为协同服务,HBase是Apache的Hadoop项目的子项目,

HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。

HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase 不是关系型数据库,不支持 SQL。

Apache HBase™ is the Hadoop database, a distributed, scalable, big data store.

Use Apache HBase™ when you need random, realtime read/write access to your Big Data. This project’s goal is the hosting of very large tables – billions of rows X millions of columns – atop clusters of commodity hardware. Apache HBase is an open-source, distributed, versioned, non-relational database modeled after Google’s Bigtable: A Distributed Storage System for Structured Data by Chang et al. Just as Bigtable leverages the distributed data storage provided by the Google File System, Apache HBase provides Bigtable-like capabilities on top of Hadoop and HDFS.

HBase 结构

3维map,三个维度分别是

  • rowkey 主键
  • column 由 family:qualifier 两部分组成, family 列族,和 qualifier 来确定唯一的列
  • timestamp 数据写入时间戳

HBase的map是按照key来排序的, 其将key转换为byte[], 然后顺序进行存储.

  • 表名为字符串
  • Rowkey 和 ColumnName 是二进制 byte[]
  • Timestamp 是 64 位整数 Java 中 long 类型
  • value 是一个字节数组 byte[]

行主键 rowkey

行以 rowkey 作为唯一标示, rowkey 是一段字节数组,任何东西都能保存进去,字符串,数字等等。行按照字典序由低到高存储在表中。rowkey 可以是任意字符串,最大长度 64KB。

HBase 不支持条件查询和 Order by 查询,读取记录只能按照 rowkey 及其 range 或全表扫描,因此 rowkey 需要根据业务来设计以利用其字典序特性排序提高性能。

行的一次读写是原子操作,这个设计使得 HBase 的并发更新操作更加易懂。

列族和列 column family

列族是列的集合,要准确表示一个列,列族:列名 方式。列族(Column family)需要 在创建表时指定 ,列(Column)则不需要,可以随时在使用时创建。列族的成员在文件系统中都存储在一起,列族中所有列存储方式都一致。HBase 的每一个列都属于一个列族,以列族名为前缀,例如 A:aA:b 都属于 A 列族。

时间戳 timestamp

HBase 通过 row 和 column 确定一份数据(Cell),不同版本值按照时间倒序排序,查询时默认返回最新数据。存储的值根据 tableName + RowKey + ColumnKey + Timestamp => value 唯一确定。Cell 中数据没有类型,字节码存储。

每个保存的 Cell 数据都会保存多版本,版本通过时间戳来索引,时间戳由 HBase 在数据写入时自动赋值,时间戳为系统时间毫秒。如果客户端想要显示赋值也可以,每个Cell中,不同时间版本数据按照时间倒序排列,最新的数据排在最前。

为了避免数据存在过多版本造成的的管理 (包括存贮和索引)负担,HBase 提供了两种数据版本回收方式。一是保存数据的最后n个版本,二是保存最近一段时间内的版本(比如最近七天)。用户可以针对每个列族进行单独设置。

基本使用

包括安装和基本使用

安装

Apache Download Mirrors 下载,从 stable 目录下下载 .tar.gz 的文件,比如 hbase-0.94.27.tar.gz

$ tar xfz hbase-0.94.27.tar.gz
$ cd hbase-0.94.27

安装依赖基础

  • Linux
  • JDK,需要 1.6及以上

确保 /etc/hosts 目录下

127.0.0.1 localhost
127.0.0.1 ubuntu.ubuntu-domain ubuntu

不要有 127.0.1.1 类似的出现,用 # 注释掉,如果有 ipv6 的地址也最好注释掉或者删掉。

编辑 conf/hbase-site.xml

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
  <property>
    <name>hbase.rootdir</name>
    <value>file:///DIRECTORY/hbasedata</value>
  </property>
  <property>
    <name>hbase.zookeeper.property.dataDir</name>
    <value>/DIRECTORY/zookeeper</value>
  </property>
</configuration>

配置其中的 hbase.rootdir 指向本地的目录,目录保存 HBase 的文件,HBase 会自动创建。 默认数据存储目录为 /tmp/hbase-${user.name} ,一旦重启Linux,数据就会丢失

编辑 conf/hbase-env.sh 文件,配置如下两项,找到本地 Java 安装目录,可以使用 whereis java 来获取,将 JDK 的根目录配置如下:

export JAVA_HOME="/usr/lib/jdk"
export HBASE_MANAGES_ZK=true

然后使用如下命令启动 HBase:

$ ./bin/start-hbase.sh

starting Master, logging to logs/hbase-user-master-example.org.out 单机模式启动,停止的脚本也在同目录下

连接 HBase

使用自带的客户端连接

$ ./bin/hbase shell
HBase Shell; enter 'help<RETURN>' for list of supported commands.
Type "exit<RETURN>" to leave the HBase Shell
Version: 0.90.0, r1001068, Fri Sep 24 13:55:42 PDT 2010
hbase(main):001:0>

初步熟悉

创建表,插入数据

hbase(main):003:0> create 'test', 'cf'
0 row(s) in 1.2200 seconds
hbase(main):003:0> list 'test'
1 row(s) in 0.0550 seconds
hbase(main):004:0> put 'test', 'row1', 'cf:a', 'value1'
0 row(s) in 0.0560 seconds
hbase(main):005:0> put 'test', 'row2', 'cf:b', 'value2'
0 row(s) in 0.0370 seconds
hbase(main):006:0> put 'test', 'row3', 'cf:c', 'value3'
0 row(s) in 0.0450 seconds

cf 为 column family 列族

可以使用 list 命令来查询表名

然后可以使用 scan ‘test’ 来查询

hbase(main):006:0> scan 'test'
ROW    COLUMN+CELL
 row1    column=cf:a, timestamp=1480648404221, value=value1
 row2    column=cf:b, timestamp=1480648416039, value=value2
 row3   column=cf:c, timestamp=1480648427572, value=value3
3 row(s) in 0.0450 seconds

也可以使用 get 命令

hbase(main):008:0> get 'test', 'row1'
COLUMN      CELL
cf:a        timestamp=1288380727188, value=value1
1 row(s) in 0.0400 seconds

删除记录

delete 方法只能删除 column

hbase(main):020:0> delete 'test', 'row2', 'cf:b'
0 row(s) in 0.0080 seconds

使用 deleteall 来删除 rowkey 的所有 column

hbase(main):001:0> deleteall 'test', 'row1'
0 row(s) in 0.3090 seconds

使用 disable 和 drop 来删除表

hbase(main):012:0> disable 'test'
0 row(s) in 1.0930 seconds
hbase(main):013:0> drop 'test'
0 row(s) in 0.0770 seconds

不清楚命令使用格式,可以使用 help "list" 来查看命令的具体使用帮助。

退出使用 exit

最后退出可以使用 ./bin/stop-hbase.sh 来停止 hbase。

其他问题

Mac 下尝试

Mac 下安装 HBase 可以参考这篇

http://chase-seibert.github.io/blog/2013/02/01/getting-starting-with-hbase-and-pig.html

其他问题

Hbase error zookeeper exists failed after 3 retries

16/12/02 10:45:28 INFO zookeeper.ClientCnxn: Opening socket connection to server localhost/127.0.0.1:2181. Will not attempt to authenticate using SASL (unknown error)

16/12/02 10:45:28 WARN zookeeper.ClientCnxn: Session 0x0 for server null, unexpected error, closing socket connection and attempting

配置

更多的配置可以参考

http://hbase.apache.org/0.94/book/configuration.html

standalone mode

Pseudo-Distributed mode

Distributed mode

reference


2017-02-16 HBase , Database , Apache

Linux 下自动更新 Chrome

最近使用 Gmail 竟然告诉我“即将不支持此版本浏览器”,于是看了一样 Chrome 版本号 —- v52 , 感觉还很新啊,查了一下发现 Chrome 版本已经更新到了 v56。 但是 Linux 下 Chrome 不会自动更新, chrome://help/ 来查看也不会自动更新。所以搜索了一下,发现 Google 其实维护了自己的 Linux Repository

因为我是通过网站下载 GUI 安装的,所以没有自动更新的模块,添加 Chrome 的 source 即可。

添加 PPA 源

如果使用 PPA,则可以通过下面的命令,让 apt 每一次检查更新时将 Chrome 的更新带下来。

$ wget -q -O - https://dl-ssl.google.com/linux/linux_signing_key.pub | sudo apt-key add -
$ sudo sh -c 'echo "deb http://dl.google.com/linux/chrome/deb/ stable main" >> /etc/apt/sources.list.d/google-chrome.list'
# 如果是 64 位系统,则使用如下命令
$ sudo sh -c 'echo "deb [amd64] http://dl.google.com/linux/chrome/deb/ stable main" >> /etc/apt/sources.list.d/google-chrome.list'

如果已经安装过 Chrome,则使用如下命令更新:

$ sudo apt update
$ sudo apt install google-chrome-stable

2017-01-27 Linux , Chrome , Google , APT

RESTful 接口

RESTful 为 Representational State Transfer 的缩写,拆分开这三个单词来就是:

  • Representational - REST resources can be represented in virtually any form, include XML, JSON, or even HTML 表现层,资源的表现形式
  • State - concerned with the state of a resource 状态,指的是互联网上资源的状态
  • Transfer - transferring resource data 转换,服务端/客户端的转换

Put more succinctly, REST is about transferring the state of resources in a representational form that is most appropriate for the client or server from a server to a client (or vice versa).

These HTTP methods are often mapped to CRUD verbs as follows:

  • Create — POST 新建资源,也可用于更新资源
  • Read — GET 获取资源
  • Update — PUT or PATCH 更新资源,PUT时客户端提供修改的完整资源,PATCH 为客户端提供改变的属性
  • Delete — DELETE 删除资源

什么是RESTful架构:

  1. 每一个URI代表一种资源;
  2. 客户端和服务器之间,传递这种资源的某种表现层;
  3. 客户端通过四个HTTP动词,对服务器端资源进行操作,实现”表现层状态转化”。

看到这里便可以回答:”PUT 和 POST” 的区别了 —- POST 用来新建资源,而 PUT 和 POST 都可以用来更新资源提交更新。

对于一个 HTTP 请求可以分成一下部分:

VERB is one of the HTTP methods like GET, PUT, POST, DELETE, OPTIONS, etc

URI is the URI of the resource on which the operation is going to be performed

HTTP Version is the version of HTTP, generally “HTTP v1.1” .

Request Header contains the metadata as a collection of key-value pairs of headers and their values. These settings contain information about the message and its sender like client type, the formats client supports, format type of the message body, cache settings for the response, and a lot more information.

Request Body is the actual message content. In a RESTful service, that’s where the representations of resources sit in a message.

对于一个 Http Response 可以分成一下部分:

HTTP Version

Response Code

Response Header

Response Body contains the representation if the request was successful

一些常见问题

API版本控制

将API版本放入 URI

https://api.example.com/v1

或者将版本信息放入 HTTP 头信息中。

以下是读 《Oreilly REST API Design Rulebook》 的一些笔记。

A Web API conforming to the REST architectural style is a REST API.

URI

格式

RFC 3986 * defines the generic URI syntax as shown below:

URI = scheme "://" authority "/" path [ "?" query ] [ "#" fragment ]

建议:

  • 使用前置的 “/” (forward slash separator) 来表达资源层级,在 URI 结尾不添加 “/”
  • 使用 Hyphens “-” 来增加可读性,不使用 Underscores “_”
  • 使用小写
  • 不使用 File extensions

Resource Archetypes

A REST API 有 4 种不同的资源原型( Resource Archetypes ) : document, collection, store and controller. 下面四种资源类型翻译出来不伦不类,直接原文反而比较容易明白。

  • A document resource is a singular concept that is akin to an object instance or database record. A document’s state representation typically includes both fields with values and links to other related resources.

  • A collection resource is a server-managed directory of resources. 服务端托管资源的目录

  • A store is a client-managed resource repository. 客户端管理的资源

    The example interaction below shows a user (with ID 1234) of a client program using a fictional Soccer REST API to insert a document resource named alonso in his or her store of favorites:

    PUT /users/1234/favorites/alonso
  • A controller resource models a procedural concept. Controller resources are like executable functions, with parameters and return values; inputs and outputs.

URI Path Design 路径设计

  • 单数名词用于 document
  • 复数名词用于 collection
  • 复数名词用于 store
  • 动词或者动词短语用于 Controller 名字
  • Variable path segments may be substituted with identity-based values
  • CRUD 名字不应该在URI中使用,而应该使用 DELETE /users/1234

URI Query Design 参数设计

  • The query component of a URI may be used to filter collections or stores

    比如 GET /users?role=admin

  • 用来分页

    GET /users?pageSize=25&pageStartIndex=50

Interaction Design with HTTP

REST API 使用 HyperText Transfer Protocol , version 1.1 (HTTP/1.1) , 包括:

  • request methods
  • response codes
  • message headers

RFC 2616 defines the Status-Line syntax as shown below:

Status-Line = HTTP-Version SP Status-Code SP Reason-Phrase CRLF

Request Methods

请求的方法区别:

The purpose of GET is to retrieve a representation of a resource’s state. HEAD is used to retrieve the metadata associated with the resource’s state. PUT should be used to add a new resource to a store or update a resource. DELETE removes a resource from its parent. POST should be used to create a new resource within a collection and execute controllers.

需要注意:

  • GET and POST must not be used to tunnel other request methods
  • GET must be used to retrieve a representation of a resource
  • HEAD should be used to retrieve response headers
  • PUT must be used to both insert and update a stored resource
  • POST must be used to create a new resource in a collection
  • POST must be used to execute controllers
  • DELETE must be used to remove a resource from its parent
  • OPTIONS should be used to retrieve metadata that describes a resource’s available interactions

Response Status Codes 返回码

Category Description 分组描述

1xx: Informational Communicates transfer protocol-level information.

2xx: Success Indicates that the client’s request was accepted successfully.

3xx: Redirection Indicates that the client must take some additional action in order to complete their request.

4xx: Client Error This category of error status codes points the finger at clients. 客户端请求错误

5xx: Server Error The server takes responsibility for these error status codes. 服务器内部错误

具体的状态码:

  • 200 表明成功, response 需携带 response body
  • 201 Create 表示资源创建成功
  • 202 Accepted 用于表示成功开始了异步动作
  • 204 No Content,通常用于 PUT,POST,和 DELETE 请求的response,如果 GET 返回结果为空,通常也用204
  • 301 “Moved Permanently”,通常应该在返回结果 header 中包含 Location 重定向的请求地址
  • 302 (“Found”) should not be used
  • 303 “See Other” refer the client to a different URI
  • 304 Not Modified preserve bandwidth , client already has the most recent version of the representation
  • 307 Temporary Redirect tell clients to resubmit the request to another URI
  • 400 Bad Request may be used to indicate nonspecific failure,客户端请求错误
  • 401 Unauthorized,must be used 客户端无授权,令牌,密码等无验证
  • 403 Forbidden,should be used to forbid access regardless of authorization state
  • 404 Not found,must be used when a client’s URI cannot be mapped to a resource 不存在该记录
  • 405 (“Method Not Allowed”) must be used when the HTTP method is not supported
  • 406 Not Acceptable,must be used when the requested media type cannot be served
  • 409 Conflict should be used to indicate a vialation of resource state
  • 412 Precondition Failed should be used to support conditional operations
  • 415 Unsupported Media Type must be used when the media type of a request’s payload cannot be processed
  • 500 Internal Server Error should be used to indicate API malfunction

Metadata Design

HTTP Headers

  • Content-Type must be used

  • Content-Length should be used, Content-Length header 给出了整个 body bytes 大小,给出他的理由有两个:1. 客户端可以检查是否读取完整的大小 2. 客户端可以通过 HEAD 请求来得知整个body 的大小,而不同下载。

  • Last-Modified should be used in responses

  • ETag should be used in responses ETag是HTTP协议提供的若干机制中的一种Web缓存验证机制,并且允许客户端进行缓存协商。 这就使得缓存变得更加高效,而且节省带宽。 如果资源的内容没有发生改变,Web服务器就不需要发送一个完整的响应。 ETag也可用于乐观并发控制,作为一种防止资源同步更新而相互覆盖的方法。

  • Location must be used to specify the URI of a newly created resource

  • Cache-Control, Expires, and Date response headers should be used to encourage caching

Media Types

Media Type 有如下语法:

type "/" subtype *( ";" parameter )

type 的值可以有: application, audio, image, message, model, multipart, text 和 video.

A typical REST API will most often work with media types that fall under the application type.

text/plain

A plain text format with no specific content structure or markup. ‡

text/html

Content that is formatted using the HyperText Markup Language (HTML). §

image/jpeg

An image compression method that was standardized by the Joint Photographic

Experts Group (JPEG). ‖

application/xml

Content that is structured using the Extensible Markup Language (XML). #

application/atom+xml

Content that uses the Atom Syndication Format (Atom), which is an XML-based

format that structures data into lists known as feeds. *

application/javascript

Source code written in the JavaScript programming language. †

application/json

The JavaScript Object Notation (JSON) text-based format that is often used by

programs to exchange structured data. ‡

Media Type Design

Client developers are encouraged to rely on the self-descriptive features of a REST API.

Representation Design

REST API 通常使用 response message 的 body 来传递资源的状态。 REST APIs 通常使用文本格式来表示资源。

  • JSON should be supported for resource representation

Client Concerns

Versioning

  • 使用新的 URIs
  • Schemas
  • Entity tags

Security

  • OAuth

CORS(Cross-origin resource sharing 跨域资源共享) should be supported to provide multi-origin read/write access from JavaScript,克服了 AJAX 只能同源使用资源的限制。

Access-Control-Allow-Origin

该字段是必须的。它的值要么是请求时Origin字段的值,要么是一个*,表示接受任意域名的请求。

Access-Control-Allow-Credentials

该字段可选。它的值是一个布尔值,表示是否允许发送Cookie。默认情况下,Cookie不包括在CORS请求之中。设为true,即表示服务器明确许可,Cookie可以包含在请求中,一起发给服务器。这个值也只能设为true,如果服务器不要浏览器发送Cookie,删除该字段即可。

Access-Control-Expose-Headers

该字段可选。CORS请求时,XMLHttpRequest对象的getResponseHeader()方法只能拿到6个基本字段:Cache-Control、Content-Language、Content-Type、Expires、Last-Modified、Pragma。如果想拿到其他字段,就必须在Access-Control-Expose-Headers里面指定。上面的例子指定,getResponseHeader(‘FooBar’)可以返回FooBar字段的值。

CORS 请求默认不发送 Cookie 和 HTTP 认证信息,如果想要把 Cookie 发送到服务器,一方面要服务器同意,指定 Access-Control-Allow-Credentials 为 true。

调试 RESTful 接口

接口调试工具 Postman https://www.getpostman.com/

其他工具


2017-01-10 Web , API , RESTful

修复 Linux mint 下 sogou 输入法

记录一下 Linux 下 Sogou 输入法失效的问题,以及解决修复过程。 Linux 真是太难折腾了,一些配置总是太乱,没有文档,没有集中的 Q&A ,导致使用过程非常困难,一些基础设施都很难用。当然如果调教的好,也是能够非常高效的。比如解决了这个基础打字问题之后的这篇文章就是在 Linux Mint 下完成的。

问题描述

不知道是系统升级还是因为输入法升级,(可在我印象中完全没有做任何干扰到输入法的事情),搜狗输入法 Linux 版,就这么挂掉了,而其他设置一切正常,其他的输入法也都一切正常,但是实在无法用的过来, RIME没有一个可更新的词库,google pinyin 也是词库不全,使用起来总还是不太方便,虽然 sogou 输入法在 Linux 下有些问题所在,但是还是相对来说比较好用的,但是它就这么挂了。

解决过程

在刚开始的时候以为是 Fcitx 的问题,卸载 sudo apt remove fcitx,重装,登入登出好几回,发现并没有任何用,期间也尝试使用过 iBus,但是实在无法使用。

最后在网上查阅问题的时候,发现 搜狗输入法在系统的 ~/.config 下会有三个配置文件夹,包括

  • SogouPY
  • SogouPY.user
  • sogou-qimpanel

将此三文件夹,移动位置,或者删除,重新安装搜狗输入法,登出,登录,即可。


2017-01-03 Linux , Linux Mint , Sogou

Google+

最近文章

  • 使用 pyenv 管理 Python 版本 记录一下使用过程,留备以后使用。
  • 电影网站评分机制 年前的时候喉舌媒体批评豆瓣,猫眼等评分太低影响了票房,而导致16年的年度票房目标没有达到,广电很生气,后果很严重。可是豆瓣存在了那么多年,那么多的电影,在院线上映的,还是不上映的,从来也没有听说过 IMDB 或者 烂番茄的评分会影响到总体的票房。虽然得分的多少或多或少的会对票房有所影响,可这难道是豆瓣,或者 IMDB 或 烂番茄这样的影评网站应该承担的责任吗? 制片公司,发行商,甚至细化到导演,演员,剧本,在国内甚至可以拉上审查来负责,动不动删掉个14分钟,谁还愿意花了冤枉钱去大荧幕看一个不完整的片子呢?真正的影迷 大概会愿意花个机票钱去看一个完整版吧。
  • Openwrt 平均负载 Openwrt 在 Luci 后台很显眼的位置有三个不断刷新的数字,其实这个数字是“平均负载”(Load Average)的意思,这是 Linux 操作系统衡量系统负载和稳定性的重要参数。
  • Openwrt 设置 在上一篇中讲了如何刷Openwrt,这一篇主要讲一些 Openwrt 的东西,以及配置相关的内容。我有一个主路由器,设置分配的局域网地址为 192.168.1.x,给内网中分配的地址也是 192.168.1.x 开头。
  • TP LINK MR12U 刷 openwrt 今天翻箱倒柜竟然找出了我的 TP-LINK MR12U,很早之前因为3G上网卡而买的便携式路由,突然脑袋一热,干嘛不试试刷个 Openwrt 呢。记得当时是没有支持的,但是一搜竟然发现了 Openwrt 有官方支持了。于是开始动手。