记录一下从 mint 18.3 升级到 19, 然后小版本升级的过程。虽然总结这篇文章的时候比较早,但是一直没有发布出去,现在想想 Mint 20 都快出了,放在这里做个记录吧。
都知道 Ubuntu 大版本更新极有可能会让一些熟悉的应用没有及时维护而无法使用。Mint 也是一样从 18.3 升级到 19 的过程就比较痛苦,需要升级各种依赖版本。
使用 Mint 自带的 timeshift 应用进行备份:
sudo apt install timeshift
查看当前的 dm, 并变更为 lightdm:
cat/etc/X11/default-display-manager
/usr/sbin/mdm
sudo apt install lightdm lightdm-settings slick-greeter
sudo dpkg-reconfigure lightdm
安装 mintupgrade:
sudo apt install mintupgrade
# 检查目前的依赖及安装包
sudo mintupgrade check
# 下载最新的安装包
sudo mintupgrade download
# 执行升级的过程
sudo mintupgrade upgrade
Update 工具中,选择 Edit, 然后选择升级到某某某版本。
在升级 Ubuntu 或者 Mint 的时候,千万小心,有很大的程度可能导致无法进入系统,最好做到资料的备份,如果进不去系统也不要担心,Linux 下提供了很多 Debug 工具,可以通过各种方法做到不丢数据。现在想一想我 MSI 笔记本上的系统升级过两次大版本,都或多或少的遇到过各种问题,但从来没有丢过数据,并通过一些配置都可以很快的进入桌面。
Arthas is a Java diagnostic tool that promises to help developers troubleshoot production issues for Java applications without modifying the code or restarting the server.
Main features:
安装非常简单
curl -L https://alibaba.github.io/arthas/install.sh | sh
然后使用 ./as.sh
启动即可。
其他安装方式
进入 arthas 之后使用 dashboard
可以快速查看全局信息,包括系统基本信息,CPU 使用率,堆内存,gc 次数,gc 耗时等等
使用 thread
可以查看线程堆栈信息。当 thread 没有参数时会打印所有的线程信息。
thread
命令也支持打印当前最忙的前 N 个线程
thread -n 3
后面增加 id 可以打印指定线程堆栈
thread id
使用 -b
参数一键找出当前阻塞其他线程的线程
thread -b
目前只支持找出 synchronized 关键字阻塞住的线程, 如果是 java.util.concurrent.Lock
, 目前还不支持。
当知道类的路径时可以直接使用 sc -d package.Class
这样的方式来查看当前类的详细信息
$ sc -d demo.MathGame
class-info demo.MathGame
code-source /home/einverne/arthas/arthas-demo.jar
name demo.MathGame
isInterface false
isAnnotation false
isEnum false
isAnonymousClass false
isArray false
isLocalClass false
isMemberClass false
isPrimitive false
isSynthetic false
simple-name MathGame
modifier public
annotation
interfaces
super-class +-java.lang.Object
class-loader +-sun.misc.Launcher$AppClassLoader@5c647e05
+-sun.misc.Launcher$ExtClassLoader@197c17c6
classLoaderHash 5c647e05
信息中可以清晰的看到加载的 jar 的路径等等一些信息。
要回答这个问题,最好的方法就是立马检查下当前正在跑的代码是否符合预期。使用如下命令:
jad demo.package.Class
直接查看当前运行的代码
如果特别关心某一函数的耗时情况,可以使用 trace 来查看
trace package.Class method
使用 tt 命令可以记录下指定方法被调用时的入参和返回值。tt 是 TimeTunnel 的缩写,为了解决 watch 命令的复杂。
tt -t package.Class methodName -n 100
tt -t package.Class methodName -n 100 > temp.log
-n
表示会统计之后的多少请求,> temp.log
表示输出到 arthas 的 cache 中,地址在 ~/logs/arthas-cache/
下
上面使用 tt 命令记录的内容可以用来回放请求,在 temp.log 日志中找到 index 表示的即为该请求的入参,使用 tt 命令可以用来回放请求,下面命令中的 index 就是文件中的 index
tt --play -i index
在使用回放的时候需要注意:1. ThreadLocal 信息丢失 2. 引用对象, tt 命令将当前环境的对象引用保存,如果方法对入参进行了修改,那么 tt 命令无法查看到准确的值。
tt 命令可以一直监控方法的入参,但是有的时候并不关心正常运行的参数,而只关心有异常的方法的入参,这个时候就可以使用 watch 命令
watch package.Class method -e -x 2 '{params[0], params[1].toString, throwExp}'
使用 jvm
命令即可查看 JVM 的运行状态
jvm
sysprop 可以查看系统变量,sysenv 可以查看系统的环境变量。
HAProxy is free, open source software that provides a high availability load balancer and proxy server for TCP and HTTP-based applications that spreads requests across multiple servers. It is written in C and has a reputation for being fast and efficient.
Features:
Performance:
Similiar:
HAProxy 的负载均衡算法:
HAProxy 的配置文件共有 5 个域
HTTP
global
daemon
maxconn 256
defaults
mode http
timeout connect 5000ms
timeout client 50000ms
timeout server 50000ms
frontend http-in
bind *:80
default_backend servers
backend servers
server server1 127.0.0.1:8000 maxconn 32
在配置文件中增加
listen stats #定义监控页面
bind *:1080 # 绑定端口 1080
mode http # http mode
stats hide-version # Hide HAProxy version
stats refresh 30s # 每 30 秒更新监控数据
stats uri /stats # 访问监控页面的 uri
stats realm HAProxy\ Stats # 监控页面的认证提示
stats auth admin:admin # 监控页面的用户名和密码
然后通过 http://ip:1080/stats 即可访问
现在个人代理需求不强烈,等折腾到了再搞。
所有下载链接建议有国外 VPS 的直接从国外的 VPS 下载,scp 拉回本地,浏览器下载太慢。
AOSP Extended
LineageOS
在安装完新的 AOSP Extended ROM 之后启动突然出现了 “Decryption Unsuccessful” 的问题,一查可能是之前的数据分区加密过,新的系统无法解密读取这些文件了。
There’s some weird issues with the latest AOSP based ROM that makes encrypted ext4 based data partition unable to be decrypted in both system and older version of TWRP if you’re encrypted before (intentionally or unintentionally). This however doesn’t apply to F2FS and unencrypted ext4 data partition
xda 提供了两种解决方案:
推荐的方式是重新分配分区 F2FS,这需要提前备份所有 internal storage 数据,然后抹去所有数据
第二种方式是安装一个第三方修改过的 Kernel,这种方式不需要抹除数据
这里补充下 F2FS,很多人可能好奇 F2FS 是什么,具体做什么用,F2FS 是 “Flash-Friendly File system”,是一种新的文件系统,用于 NAND 闪存一类的储存设备,F2FS 和主流的 ext3/4 相比,有更好的加密特性,更快的读取速度,对碎片小文件读写优化,增加了固态存储的寿命等等优点。但 F2FS 也有其缺点,就是在大文件读写上性能可能会波动。
Hive 是 Hadoop 生态中必不可少的工具,提供了 SQL 方言用于查询存储在 HDFS 中的数据和其他与 Hadoop 集成的文件系统(Amazon S3 ,HBase 数据库,Cassandra 的数据)
Hive 最适合数据仓库应用,使用应用进行相关静态数据分析,不需要快速响应得到结果,数据本身不会频繁发生变化。Hive 不是完整的数据库,Hadoop 和 HDFS 的设计约束和局限限制了 Hive 所能胜任的工作。最大的限制就是 Hive 不支持记录级别的更新、插入或者删除。
Hive 不支持 OLTP(联机事务处理)而更接近 OLAP(联机分析技术),如果要对大规模数据使用 OLTP,应该使用 NoSQL 数据库,例如 HBase 等。和大多数 SQL 方言一样,HiveQL 不符合 ANSI SQL 标准,和 常规的 MySQL,SQL Server 支持的 SQL 有很多方面差异,HiveQL 和 MySQL 提供的 SQL 方言最接近。
Hive 的运行依赖很多环境,需要一一配置
首先保证 Java 运行环境,jdk 1.7 及以上
java -version
验证
下载 tar,解压,配置环境变量
export HADOOP_HOME=/usr/local/hadoop
export HADDOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
export HADOOP_INSTALL=$HADOOP_HOME
配置完可以查看下版本:
hadoop version
配置文件
配置 core-site.xml
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000</value>
</property>
配置 hdfs-site.xml
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.name.dir</name>
<value>file:///home/hadoop/hadoopinfra/hdfs/namenode </value>
</property>
<property>
<name>dfs.data.dir</name>
<value>file:///home/hadoop/hadoopinfra/hdfs/datanode </value >
</property>
配置 yarn-site.xml
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
配置 mapred-site.xml
cp mapred-site.xml.template mapred-site.xml
添加如下
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property
验证,首先格式化 namenode
hdfs namenode -format
启动 Hadoop dfs
start-dfs.sh
启动 Yarn Script
start-yarn.sh
安装成功后访问
http://localhost:50070/
http://localhost:8088/
Hive 的大多数工作是使用 Hadoop 的 job,Hive 的行为可以反映出用户所使用的 Hadoop 运行模式。
下载 tar,解压,配置环境变量(根据不同的路径配置)
wget http://archive.apache.org/dist/hive/hive-2.1.0/apache-hive-2.1.0-bin.tar.gz
tar -xzf apache-hive-2.1.0-bin.tar.gz
export HIVE_HOME=/home/einverne/apache-hive-2.1.0-bin
export PATH=$PATH:$HIVE_HOME/bin
配置
cd $HIVE_HOME/conf
cp hive-env.sh.template hive-env.sh
编辑 hive-env.sh
export HADOOP_HOME=/usr/local/hadoop
配置 hive-site.xml
cp hive-default.xml.template hive-site.xml
使用 hive 内置的 derby (Apache Derby 非常小巧,核心部分 derby.jar 只有 2M,所以既可以做为单独的数据库服务器使用,也可以内嵌在应用程序中使用),初始化 Derby 数据库:
schematool -initSchema -dbType derby
验证
hive --version
进入 hive 之后
hive> show databases;
查看结果。默认会有一个 default 数据库,至此所有的安装都完成了。
Hive 目录的一些说明:
$HIVE_HOME/lib
下有很多 jar 包,每一个 jar 包提供 Hive 功能中的特定部分。$HIVE_HOME/bin
目录下包含各种可执行文件,包括 hive 的命令行 CLI。Hive 的安装总体过程比较复杂可以具体参考这里
启动 start-dfs.sh
时遇到
19/01/29 18:36:55 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
需要配置如下环境变量:
export HADOOP_OPTS="$HADOOP_OPTS -Djava.library.path=$HADOOP_HOME/lib/native"
关于使用 derby 的问题,hive 内嵌一个 derby ,如果要使用内嵌的 derby 那么在 hive-site.xml
中需要配置连接字串为:
<property>
<name>javax.jdo.option.ConnectionURL</name>
<value>jdbc:derby:metastore_db;create=true</value>
<description>JDBC connect string for a JDBC metastore </description>
</property>
而如果选择单独启动 derby 那么需要配置:
<property>
<name>javax.jdo.option.ConnectionURL</name>
<value>jdbc:derby://localhost:1527/metastore_db;create=true </value>
<description>JDBC connect string for a JDBC metastore </description>
</property>
而这个时候则需要单独的配置启动 derby.
Hive 的元数据都存放在 metastore 中,包括:服务和后台数据。metastore 的配置有三种方式:
在上面的安装步骤中,使用了内置的 Derby 数据库,但这个只适用于本地试验,如果要部署到生产环境还是需要单独配置 Metastore 数据库,使用外部的 Derby 或者 MySQL 等等。
当使用内置的 Derby 并且在本地一个目录中启动终端 hive,那么进入 hive shell 时,hive 默认会在当前目录下生成一个 metastore_db 目录,用来保存在 Shell 中的 sql 结果,新建的表,添加的分区等等。
这种存储方式导致同一个目录只能同时有一个 hive 客户端访问,切换目录使用 shell 时,无法查看之前创建的表。
如果要使用 MySQL 那么需要配置几点。首先将 mysql-jdbc-driver.jar 拷贝到 $HIVE_HOME/lib
目录下,然后配置 hive-site.xml 文件
<property>
<name>hive.metastore.local</name>
<value>true</value>
</property>
<property>
<name>javax.jdo.option.ConnectionURL</name>
<value>jdbc:mysql://localhost/hive?createDatabaseIfNotExist=true</value>
</property>
<property>
<name>javax.jdo.option.ConnectionDriverName</name>
<value>com.mysql.jdbc.Driver</value>
</property>
<property>
<name>javax.jdo.option.ConnectionUserName</name>
<value>hive</value>
</property>
<property>
<name>javax.jdo.option.ConnectionPassword</name>
<value>password</value>
</property>
CREATE DATABASE demo;
CREATE DATABASE IF NOT EXISTS demo;
SHOW DATABASES;
SHOW DATABASE LIKE 'd.*';
DESCRIBE DATABASE demo;
CREATE TABLE IF NOT EXISTS mydb.employees (
name STRING COMMENT 'name',
age INT COMMENT 'age',
salary FLOAT COMMENT 'salary',
subordinates ARRAY<STRING> COMMENT 'Names of subordinates',
deductions MAP<STRING, FLOAT> COMMENT 'Keys are deductions name, values are percentages',
address STRUCT<street:STRING, city:STRING, state:STRING, zip:INT> COMMENT 'Home address'
)
COMMENT 'Description of the table'
TBLPROPERTIES ('creator'='me', 'create_at'='2019-01-01 00:00:00')
LOCATION '/user/hive/warehouse/mydb.db/employees';
DROP TABLE IF EXISTS employees;
Kudu 是一个分布式结构化存储系统,由 Cloudera 开源,和 Apache Hadoop 生态紧密结合,共享了很多相同的工具集,可以跑在相同的硬件上,都支持水平扩展。
在了解 Kudu 之前先要了解两个概念 OLTP 和 OLAP:
上面两种系统可以简单的理解为一类是需要频繁修改低延迟写入的数据库系统,一种是需要大量连续读分析的高性能分析系统
结构化数据在 Hadoop 生态系统中存储,通常分为两类:
两类系统各有自己的优缺点,为了解决各自的问题,一种常用的做法就是 pipeline,比如 Kafka,在数据快速写入到 HBase 的同时通过 pipeline 将其导出给其他分析系统,这时又会遇到一致性等问题。
Kudu 本意上为了解决上面的问题,寻求一个结合点,在一个系统的一份数据中,Kudu 结合了 HDFS 和 HBase 的有点,既能够支持 OLTP 实时读写能力,又能支持 OLAP 的分析能力。Kudu 提供简单的插入,更新和删除,同时通过 table scan 来处理数据分析。
Kudu 提供 table 概念,每个 table 都有预先定义好的 schema,Schema 定义多个 column,每一个 column 有名字,类型,是否允许 NULL 等。column 组成 primary key。在使用 Kudu 之前用户必须先建立 table,可以通过 DDL 语句添加或者删除 column,但不能删除包含 primary key 的 column。Kudu 的数据模型和关系型数据库非常相似。
Kudu 提供两种一致性模型:snapshot consistency 和 external consistency. snapshot consistency 为默认方式,更好的读性能。external consistency 能够保证写入数据后,任何读取都能读到最新数据。
Kudu 使用 Raft 算法来保证分布式环境下面数据一致性。
Kudu 采用 Master-Slave 形式的中心节点架构,管理节点叫做 Kudu Master,数据节点叫做 Tablet Server。表数据被分割为一个或者多个 Tablet,Tablet 部署在 Tablet Server 提供数据读写服务。
Master 作用
master 存放集群所有的信息,当 client 需要读写时先请求 master,然后路由到对应 client,但这样 master 一定会成为瓶颈,所以 client 会缓存最近路由,当失效时才会从 master 获取
Kudu 的数据模型类似于关系型数据库,数据存储在结构化的表中。同时 Kudu 是一个分布式的存储引擎,数据最终会分成很多的 tablets 存储在不同的机器上,而表的 partition 则定义了数据会被放到哪些 tablet 中。在同一个 tablet 中,数据根据主键有序排列。
Kudu column schema :
Kudu 支持两种类型的 partition:rang 和 hash
最终 table 的 tablets 数目为 N*M
Kudu 的分区可以按照 Range 和 Hash 方式划分到不同的 Tablet。Hash Partition 数据较均匀的分布在 Tablet 中,原来的数据排序特点被打乱。Range Partition 数据按照用户指定的有序 Primary Key Column 的组合 String 顺序分区。
Tablet 在 Kudu 中被切分更小的单位,RowSets,只存在内存的叫做 MemRowSets,而另一些使用 disk 和 memory 共享存放,叫做 DiskRowSets,任何一行数据只存在一个 RowSets 中。
任何时候,一个 Tablet 仅有一个单独的 MemRowSet 用来保存最近插入的数据,后台线程定期将 MemRowSet 刷入 disk。之前的 MemRowSet 被刷入 disk 后变成 DiskRowSet,空出新的 MemRowSet。
昨天在 Tmux 中使用 gpg 时遇到了一个问题,在别人的回答中看到了 login shell 和 non-login shell 的区别。在我的情况下终端中 bash 或者 zsh 都是能够使用 gpg 签名 git commit 的,但是在 tmux 下却报了错误。所以才有了这样一篇总结。
登录式 shell 是用户使用自己的 user ID 登录交互式 shell 的第一个进程。这里又要提及另外两个概念就是交互式 shell 和非交互式 shell,幸而这两个概念比较好理解。
说完这两个区别,回到主题:
~/.bashrc
for bash, /etc/zshrc
and ~/.zshrc
for zsh)有一种判断 login shell vs non-login shell 的非常快速的方法,使用命令 echo $0
-bash
中 -
表示当前是一个 login shellbash
表示不是 login shell至于为什么会有这么多的模式,是因为不同的模式读取的配置文件有所区别。
login shell 会读取不同的配置文件,比如 bash 会读取 /etc/profile
, ~/.profile
,~/.bash_profile
等配置文件。而 zsh 会是 /etc/zprofile
和 ~/.zprofile
而 non-login shell 只会读取 ~/.bashrc
配置。
Huginn 是一个 Ruby 实现的在线的自动化任务构建系统。它可以用来监控网页,监听时间,实现自定义行为。Huginn 的 Agents 可以创建或消费事件,并通过一个直接的 Graph 对事件进行传播。可以把它认为是一个开源版本的 IFTTT, Zapier。
Huginn 可以做:
使用 Docker 是最方便的了
docker pull huginn/huginn
如果不想自己安装 MySQL 之类的数据库,这个镜像中包含了一个打包的数据库,直接 run 就行
sudo docker run -it --name huginn -p 3000:3000 --rm huginn/huginn
注意命令中的 --rm
当终止命令后容器会被删除,如果不想一次性使用不要使用该参数。如果想要在后台运行使用 -d
参数。
或者使用 docker-compose
假设在本机以及启动了一个 MySQL 实例,不想使用捆绑到镜像中的数据库那么可以在启动时指定环境变量。不过首先需要设置数据库的连接设置和权限,设置 /etc/mysql/mysql.conf.d/mysqld.cnf
设置监听地址为 0.0.0.0
,然后使用 ifconfig
查看 docker0 的 IP 地址,一般为 172.17.0.1
,那么给该 IP 访问数据库的权限,界面或者命令:
GRANT ALL PRIVILEGES ON *.* TO 'root'@'172.17.0.%' IDENTIFIED BY 'pass' WITH GRANT OPTION;
flush privileges;
然后使用 Docker
docker run --name huginn \
-p 3000:3000 \
-e MYSQL_PORT_3306_TCP_ADDR=172.17.0.1 \
-e HUGINN_DATABASE_NAME=huginn \
-e HUGINN_DATABASE_USERNAME=root \
-e HUGINN_DATABASE_PASSWORD=pass \
huginn/huginn
注意下面的 nginx-proxy network,我一直使用它来做自动反代,和自动生成 SSL 证书,
下面的例子中我使用了一个已经存在的 postgresql 容器,名字叫做 db
所以可以直接在数据库连接那边写 db,如果是新环境,那么需要自己创建一个 PostgreSQL 数据库容器。
version: "3"
services:
huginn:
image: huginn/huginn
container_name: huginn
restart: always
environment:
HUGINN_DATABASE_ADAPTER: postgresql
POSTGRES_PORT_5432_TCP_ADDR: db
POSTGRES_PORT_5432_TCP_PORT: 5432
HUGINN_DATABASE_NAME: huginn
HUGINN_DATABASE_USERNAME: YOUR_NAME
HUGINN_DATABASE_PASSWORD: YOUR_PASSWORD
VIRTUAL_HOST: YOUR_DOMAIN
VIRTUAL_PORT: 3000
LETSENCRYPT_HOST: YOUR_DOMAIN
LETSENCRYPT_EMAIL: YOUR_EMAIL
networks:
default:
external:
name: nginx-proxy
数据库:
version: '3'
services:
db:
image: postgres:latest
container_name: postgres
restart: always
environment:
- POSTGRES_USER=YOUR_NAME
- POSTGRES_PASSWORD=YOUR_PASSWORD
volumes:
- postgresql-db:/var/lib/postgresql/data
healthcheck:
interval: 10s
start_period: 30s
volumes:
postgresql-db:
Agent 在 Huginn 中是一个行为动作的抽象。
一系列 Agent 的集合
每一个 Agent 执行一次,输出就是 Event,Agent 输出的 Event 可以给其他 Agent 使用。
在 Agent 标签页会看到一系列的默认 Agent,Agent 可以理解为一系列不同类型的自动化任务,举一个简单的例子,这些 Agent 可以帮助抓取网页,或者读取 API,甚至监听文件变化等等。
每一个 Agent 在创建完成后会有下面一些指标:
Age: 表示这个事件创建了多久
Schedule: 表示的是间隔多长时间执行,从几分钟,到几天,到固定时间都有
Last Check: 表示上次执行时间
Last Event out: 表示上次任务执行输出
Last Event In: 表示上一次外部触发任务,比如输出的,需要由外部调用
Events created: 事件自创建后触发的数目
在创建 Agent 的时候有几个参数可以注意下:
这里将 Options 单独拿出来,这里举一个例子,比如抓取豆瓣高分科幻电影,这个 JSON 的整体格式大致如下:
{
"expected_update_period_in_days": "2",
"url": [
"https://movie.douban.com/tag/%E7%A7%91%E5%B9%BB?type="
],
"type": "html",
"mode": "on_change",
"extract": {
"url": {
"css": "td:nth-child(2) > div > a",
"value": "@href"
},
"title": {
"css": "td:nth-child(2) > div > a",
"value": ".//text()"
},
"cover": {
"css": "img",
"value": "@src"
}
},
"headers": {
"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.94 Safari/537.36",
"Host": "movie.douban.com"
}
}
说明:
on_change
在数据更改时才会获取产生事件merge
把新数据和输入数据合并all
获取所有数据extract 中用的语法可以是 css 选择器,或者是 xpath 语法。等创建好,可以点击下面的 Dry Run 来测试是否运行正确。
如果要输出一个网站的 RSS,可能需要需要新建两个 Agent,一个 Agent 来抓取网站内容,一个用来导出数据。
第一步,首先要新建 Agent,然后选择 Website Agent. Website Agent 会去抓取网页,包括 XML 文档,JSON feed 然后根据结果来触发事件。
获取网页中部分信息,可以在 extract
中使用 CSS 选择器,选择网页中想要提取的部分,比如下方提取页面中 url 和 title
Options
{
"expected_update_period_in_days": "2",
"url": "http://wufazhuce.com/",
"type": "html",
"mode": "on_change",
"extract": {
"url": {
"css": ".one-articulo-titulo/a",
"value": "@href"
},
"title": {
"css": ".one-articulo-titulo/a",
"value": "normalize-space()"
}
}
}
第二步新建 Agent,选择,Data Output Agent,这个 Agent 用来输出 RSS 或者 JSON 内容。这个时候需要注意将上一个 Agent 填到 Sources 中,在 Options 中将上一个 Agent 获取到的变量填到对应的位置。
{
"secrets": [
"one"
],
"expected_receive_period_in_days": 2,
"template": {
"title": "ONE RSS",
"description": "RSS ",
"item": {
"title": " - ",
"description": "",
"link": ""
}
},
"ns_media": "true"
}
保存之后,Agent 会暴露一个地址:
https://localhost:3000/users/1/web_requests/:id/:secret.xml
地址中的 :secret
是 Options 中设定的值,结尾可以是 xml
或者 json
。 在 RSS 阅读器中订阅该地址即可。
大致思路和上面 One 一样,找到入口,抓取内容,微信没有公开入口,所以只能送搜狗的入口来
https://weixin.sogou.com/weixin?type=1&s_from=input&query=%E5%8F%8D%E6%B4%BE%E5%BD%B1%E8%AF%84&ie=utf8&_sug_=n&_sug_type_=
从页面获取最新文章链接
{
"expected_update_period_in_days": "2",
"url": [
"http://weixin.sogou.com/weixin?type=1&query= 反派影评 &ie=utf8&_sug_=n&_sug_type_=&w=01019900&sut=2064&sst0=1470553392399&lkt=0%2C0%2C0"
],
"type": "html",
"mode": "on_change",
"extract": {
"title": {
"css": "#sogou_vr_11002301_box_0 > dl:nth-child(3) > dd > a",
"value": ".//text()"
},
"url": {
"css": "#sogou_vr_11002301_box_0 > dl:nth-child(3) > dd > a",
"value": "@href"
}
}
}
然后根据上一步的 url 获取全文内容
{
"expected_update_period_in_days": "2",
"url_from_event": "",
"type": "html",
"mode": "merge",
"extract": {
"title": {
"css": "#activity-name",
"value": "."
},
"fulltext": {
"css": "#js_content",
"value": "."
}
}
}
最后和导出 RSS 一样,将内容部分导出即可。
下面的网站提供了很多 huginn 实现的例子,对刚刚接触 Huginn 的人来说帮助很大。
官网有更多的例子
IFTTT 同类型的网站有很多,上面提及的 Zapier,还有这个开源版本的 Huginn,然后在用的过程中又发现了 integromat
这个站点。
很早就有人推荐 Notion,但是注册了用了一下,本以为就是一个在线的 Google Docs,可昨天在豆瓣看到一篇文章介绍比 Trello 更加智能的代替品,然后一看就是 Notion,于是就再来研究下 Notion。然后发现原来 Notion 可以是 Google Calendar, 可以是 Trello,可以是 Google Docs,可以是 todo list,可以是 Google Excel。甚至可以导入 word,markdown,html,csv。
Notion 最为人称道的地方在于其非线性的编辑器,我们通常的编辑器都是从上倒下的我们通常的编辑器都是从上到下,不管是 Google Doc,或者是 Dropbox Paper 等等,这些是我们非常熟悉的编辑器模式,Notion 强大之处在于它把可编辑区域的概念更加细化了,每一个段落都是一个可编辑的区块,这个区块可以是简单的文字,图片,也可以是非常复杂的多媒体,这样就使得一篇内容组成丰富。
因为受到推荐,所以第一时间找为什么可以作为 Trello 的代替品,于是我在 “New Page” 的页面中找到了 “Board” 的选项,Board 是 “Database with a kanban board view”,点开新建会创建一个 Board View, 这个 View 就和 Trello 很类似。
这个看板虽然第一眼看起来不是很好看,但是功能却一点都不缺。和 Trello 不相同的是 Board 中每个一个 card 都有 property ,每一个 property 都可以定义一定的内容,而这个内容可以作为过滤条件,比如可以新建一个选择属性,然后起名字叫做 Priority,分别有三个属性值,High,Medium,Low,然后可以给每一个卡片赋一个值,那么在右上角就可以按照这个 Filter 来过滤卡片。虽然这个在 Trello 可以用 Q
快捷键来过滤 assign 给自己的卡片,但是却做不到 Board 的这么强的过滤属性。
属性的类型
高级属性
和 Trello 不相同的另外一点就是 Board 可以按照不同的属性来分组,通常情况下 Trello 只能按照 Todo,Doing,Done,来分组,但是如果 Board 增加了一些属性,那么 Group By 就可以按照属性来分组显示,比如按照 Priority 来分组显示。
和 Google Docs 不同的是 Notion 中的 Page 可以插入不同的内容,包括普通的 Header,to-do list 等等,还包括外部的 Github, Video, Bookmark, Code, File, Google Maps, Framer, Invision 等等。
在 New Page 里面有 Calendar, 和 Google Calendar 一样,也可以在 Calendar 上创建新的任务,每一个任务都是 Page,可以在里面增加任何一个上面提到的属性。和上面提到的 Board 一样,过滤,排序等等。
Google Cloud 提供 300 刀的初始优惠,而最近我的 Linode 节点越来越不稳定,时常撞墙,所以不得不再别人强烈推荐下注册了一下 GCP。这里就记录一下遇到的问题,其他具体的细节网上已经够多,就不再赘述。
国内的信用卡不太清楚为什么我试了几个都有报错,网上说把账单地址改成美国,信用卡签名也最好保持一致。
GCP 的 Compute Engine 在不同的机房都有分布,在创建 Compute Engine 的时候可以参考这里 这里非常详细的介绍了各个机房的地理位置,以及该机房拥有的机器类型,特性等。
sudo -i
sudo su
默认情况下 Google 是禁止密码登录 SSH,我一般情况下会创建一个新用户
adduser xxx
然后给该用户提供登录权限
vi /etc/ssh/sshd_config
编辑
PasswordAuthentication yes
然后重启
service sshd restart