配置你的kettle变量:
##### Windows:
C:\Users\你的用户名\.kettle\kettle.properties
##### Linux:
~/.kettle\kettle.properties
需要重启kettle才能生效
之后就可以使用kettle的变量
Kitchen——工作(job)执行器 (命令行方式)
Span——转换(trasform)执行器 (命令行方式)
这里我们重点讲一下 Kitchen.bat作业执行器 ,这个是经常要用到的。
它是一个作业执行引擎,用来执行作业。这是一个命令行执行工具,它的参数说明如下:
-rep : Repository name 任务包所在存储名
-user : Repository username 执行人
-pass : Repository password 执行人密码
-job : The name of the job to launch 任务包名称
-dir : The directory (don''t forget the leading / or \)
-file : The filename (Job XML) to launch
-level : The logging level (Basic, Detailed, Debug, Rowlevel, Error, Nothing) 指定日志级别
-log : The logging file to write to 指定日志文件
-listdir : List the directories in the repository 列出指定存储中的目录结构。
-listjobs : List the jobs in the specified directory 列出指定目录下的所有任务
-listrep : List the defined repositories 列出所有的存储
-norep : Don''t log into the repository 不写日志
当前目录
${Internal.Entry.Current.Directory}
Kettle 命令
##### Kettle命令行执行
/kettle/data-integration/kitchen.sh -level=Debug -file=XX.ktr
/kettle/data-integration/kitchen.sh -level=Basic -file=XX.kjb
/kettle/data-integration/pan.sh -level=Debug -file=XX.ktr
命令行传入变量方式
pan.sh -file:/tmp/foo.ktr "-param:MASTER_HOST=192.168.1.3" "-param:MASTER_PORT=8181"
##### Kettle远程服务
修改密码: /kettle/data-integration/pwd/carte-config-xxx.xml
启动服务:nohup ./carte.sh 172.XX.XX.XX 8081 &
##### 杀死所有kettle进程
ps -ef|grep /kettle/data-integration/spoon.sh|grep -v grep|awk '{print "kill -9 "$2}'|sh
kettle与大数据平台
建立hdfs cluster连接, 注意原生的kettle需要从大数据平台copy XML
scp /etc/hadoop/conf.cloudera.yarn/*xml root@hostname: cd data-integration/plugins/pentaho-big-data-plugin/hadoop-configurations/cdh55/ cp ~/*xml ./
从服务器hadoop etc的配置文件中下载如下4个配置文件,覆盖kettle的plugins\pentaho-big-data-plugin\hadoop-configurations\cdh**中的4个同名文件。
core-site.xml, hdfs-site.xml, mapred-site.xml, yarn-site.xml
Kettle与连接器
#### Kettle连接oracle
https://oracle.github.io/odpi/doc/installation.html#linux
kettle中文乱码
kettle中配置源数据库、目标数据库编码, 选项中 命名参数 : characterEncoding : utf-8
编辑“表输入”,去掉勾选“允许建议转换”