KETTLE配置


配置你的kettle变量:

##### Windows:
C:\Users\你的用户名\.kettle\kettle.properties

##### Linux:
~/.kettle\kettle.properties

需要重启kettle才能生效  
之后就可以使用kettle的变量  

Kitchen——工作(job)执行器 (命令行方式)
Span——转换(trasform)执行器 (命令行方式)
这里我们重点讲一下 Kitchen.bat作业执行器 ,这个是经常要用到的。
它是一个作业执行引擎,用来执行作业。这是一个命令行执行工具,它的参数说明如下:
    -rep      : Repository name   任务包所在存储名
    -user     : Repository username   执行人
    -pass     : Repository password   执行人密码
    -job      : The name of the job to launch 任务包名称
    -dir      : The directory (don''t forget the leading / or \)
    -file     : The filename (Job XML) to launch
    -level    : The logging level (Basic, Detailed, Debug, Rowlevel, Error, Nothing) 指定日志级别
    -log      : The logging file to write to  指定日志文件
    -listdir  : List the directories in the repository 列出指定存储中的目录结构。
    -listjobs : List the jobs in the specified directory 列出指定目录下的所有任务
    -listrep  : List the defined repositories 列出所有的存储
    -norep    : Don''t log into the repository  不写日志

当前目录  
${Internal.Entry.Current.Directory}

Kettle 命令

##### Kettle命令行执行
/kettle/data-integration/kitchen.sh -level=Debug -file=XX.ktr
/kettle/data-integration/kitchen.sh -level=Basic -file=XX.kjb
/kettle/data-integration/pan.sh -level=Debug -file=XX.ktr
命令行传入变量方式
pan.sh -file:/tmp/foo.ktr "-param:MASTER_HOST=192.168.1.3" "-param:MASTER_PORT=8181"

##### Kettle远程服务
修改密码: /kettle/data-integration/pwd/carte-config-xxx.xml
启动服务:nohup ./carte.sh 172.XX.XX.XX 8081 &

##### 杀死所有kettle进程
ps -ef|grep /kettle/data-integration/spoon.sh|grep -v grep|awk '{print "kill -9 "$2}'|sh

kettle与大数据平台

建立hdfs cluster连接, 注意原生的kettle需要从大数据平台copy XML
scp /etc/hadoop/conf.cloudera.yarn/*xml root@hostname: cd data-integration/plugins/pentaho-big-data-plugin/hadoop-configurations/cdh55/ cp ~/*xml ./
从服务器hadoop etc的配置文件中下载如下4个配置文件,覆盖kettle的plugins\pentaho-big-data-plugin\hadoop-configurations\cdh**中的4个同名文件。
core-site.xml, hdfs-site.xml, mapred-site.xml, yarn-site.xml

Kettle与连接器

#### Kettle连接oracle
https://oracle.github.io/odpi/doc/installation.html#linux

kettle中文乱码

kettle中配置源数据库、目标数据库编码, 选项中 命名参数 : characterEncoding : utf-8
编辑“表输入”,去掉勾选“允许建议转换”