PiFlow 是一款简单易用、功能全面的互联网大数据流水线系统软件,它结合了复合型科学研究的大数据流水线系统软件的特点,拥有丰富的CPU组件,支持Shell、DSL、Web配置页面、线程同步、任务监控等功能!
软件亮点
简单易用
数据可视化
配置流水线
监控流水线
查询流水线
流水线日志控制点功能
扩展性强:支持自定义开发数据处理组件
使用性能:基于分布式计算模块Spark开发
功能齐全:提供100多个数据处理组件,包括Hadoop、Spark、MLlib、Hive、Solr、Redis、MemCache、ElasticSearch、JDBC、MongoDB、HTTP、FTP、XML、CSV、JSON等,并集成生物信息行业的优化算法
如何使用
下载与安装
首先您需要下载PiFlow软件包 piflow-server-v0.9.tar.gz,然后解压到您的服务器上。
tar -zxvf piflow-server-v0.9.tar.gz
接下来配置环境变量 config.properties,并设置PiFlow Server的运行、停止、重启等脚本。
export PIFLOW_HOME=/yourPiflowPath/bin
export PATH=$PATH:$PIFLOW_HOME/bin
启动PiFlow Server
使用以下脚本启动PiFlow Server:
start.sh
停止PiFlow Server
使用以下脚本停止PiFlow Server:
stop.sh
重启PiFlow Server
使用以下脚本重启PiFlow Server:
restart.sh
检查PiFlow Server状态
使用以下脚本检查PiFlow Server状态:
status.sh
配置config.properties
您需要配置以下参数:
# Spark and Yarn config
spark.master=yarn
spark.deploy.mode=cluster
# HDFS default file system
fs.defaultFS=hdfs://10.0.86.191:9000
# Yarn ResourceManager hostname
yarn.resourcemanager.hostname=10.0.86.191
# If you want to use Hive, set Hive metastore uris
hive.metastore.uris=thrift://10.0.88.71:9083
# Show data in log, set 0 if you do not want to show data in logs
data.show=10
# Server port
server.port=8002
# H2DB port
h2.port=50002
运行流水线
您可以使用以下命令运行流水线:
piflow flow start example/mockDataFlow.json
停止流水线
您可以使用以下命令停止流水线:
piflow flow stop appID
获取流水线信息
您可以使用以下命令获取流水线信息:
piflow flow info appID
获取流水线日志
您可以使用以下命令获取流水线日志:
piflow flow log appID
运行流水线组
您可以使用以下命令运行流水线组:
piflow flowGroup start example/mockDataGroup.json
停止流水线组
您可以使用以下命令停止流水线组:
piflow flowGroup stop groupId
获取流水线组信息
您可以使用以下命令获取流水线组信息:
piflow flowGroup info groupId
考途应用电脑版
美团民宿应用电脑版
醒图应用电脑版
KK录像机软件
天翼云手机
KK录像机电脑版
皓云投屏
冬瓜配音
2K公布免费第三人称英雄射击游戏《Ethos计划》
考试啦,《葫芦娃2》带来原动画细节小考卷(4)
王国两位君主北欧之地隐士有什么用
我的世界种子怎么种植方法
崩坏学园2怎么注销崩坏怎么注销账号
不止《生化危机》外媒精选30款恐怖佳作
王国两位君主北欧之地雷神之锤解锁顺序
梦幻西游梦玲珑穿什么
功夫熊猫阿宝邀你切磋,《蛋仔派对》联动KouKouLove第二弹开启
终结之王SF《街头篮球》提升胜率之失误控制