189 8069 5689

如何在Ambari2.7.4集群中部署DataSphereStudio

如何在Ambari 2.7.4集群中部署DataSphere Studio,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。

创新互联主营南召网站建设的网络公司,主营网站建设方案,app软件定制开发,南召h5微信平台小程序开发搭建,南召网站营销推广欢迎南召等地区企业咨询

 

在Ambari 2.7.4集群中部署DataSphere Studio

WeData Sphere


1.概述


DataSphere Studio(简称DSS)是微众银行自研的一站式数据应用开发管理门户。

基于插拔式的集成框架设计,及计算中间件 Linkis ,可轻松接入上层各种数据应用系统,让数据开发变得简洁又易用。

在统一的UI下,DataSphere Studio以工作流式的图形化拖拽开发体验,将满足从数据交换、脱敏清洗、分析挖掘、质量检测、可视化展现、定时调度到数据输出应用等,数据应用开发全流程场景需求。

DSS通过插拔式的集成框架设计,让用户可以根据需要,简单快速替换DSS已集成的各种功能组件,或新增功能组件。

借助于 Linkis 计算中间件的连接、复用与简化能力,DSS天生便具备了金融级高并发、高可用、多租户隔离和资源管控等执行与调度能力。

但是,官方的安装文档略简单,一些配置细节为了简化安装没有介绍。导致安装阻拦了部分不同环境用户。为此,本人将我的安装过程整理出来,供大家参考。


   

目录


   

1 概述

2 基于Ambari集群配置独立client机

2.1 大数据集群环境

2.2 DataSphere Studio专用client机配置

2.2.1 基础配置说明

2.2.2 hosts和hostname

2.2.3 配置主机到client的免密码登录

2.3 Ambari集群中增加DataSphere Studio专用Client

2.3.1 指定主机

2.3.2 确认要登记的主机

2.3.3 指定在client上安装的组件

2.3.4 指定配置组

2.3.5 审查配置

2.3.6 安装、启动、测试

2.3.7 完成

2.4 客户机上安装的组件位置及配置文件位置

3 安装DataSphere Studio

3.1 安装包

3.2 依赖项安装

3.3 Yum安装nginx

3.4 撤销cp/mv/rm别名

3.5 修改配置

3.5.1 配置文件示例

3.6 修改数据库配置

3.6.1 创建数据库

3.6.2 配置

3.7 执行安装脚本

3.7.1 安装步骤

3.7.2 验证安装是否成功

3.8 访问地址

3.9 FAQ

4 启动服务

4.1 启动服务

4.2 查看是否启动成功

5 坑

5.1 提交上传资源任务失败

5.2 有的服务显示已经在运行

5.3 启动linkis失败

5.4 上传资源失败

5.4.1 hdfs中tmp/linkis的owner是root:hdfs

6 附录



2.基于Ambari集群配置独立client机


2.1 大数据集群环境


   

已经基于Ambari 2.7.4部署了四节点的大数据集群。各节点上安装的组件由ambari自动配置,没有手动配置。

在dn1节点上安装了MySQL5.7社区版,大数据组件的元数据均存储在dn1节点的mysql数据库内。

四个节点如下:

如何在Ambari 2.7.4集群中部署DataSphere Studio

2.2 DSS专用client机配置


   


   

2.2.1基础配置说明


centos7最小化安装

自带python2.7

卸载原有openJDK,换为oracle jdk 1.8

#yum -y install wget

16G内存,4核心


   

2.2.2 hosts和hostname


#vi /etc/hosts

加入

IP地址 节点的FQDN域名

例如:

192.168.94.132 datastudio.sinobd
#vi hostname

加入节点的FQDN名称

例如

datastudio.sinobd

重启生效


   

2.2.3配置主机到client的免密码登录


#ssh-copy-id -i ~/.ssh/id_rsa.pub 客户机IP地址或机器名

2.3 Ambari集群中增加DSS专用Client


   

在ambari控制台菜单,点击下方的hosts菜单,

如何在Ambari 2.7.4集群中部署DataSphere Studio
如何在Ambari 2.7.4集群中部署DataSphere Studio

   

2.3.1指定主机


输入主机名

将master机的id_rsa文件上传

cat .ssh/id_rsa复制有时出错

私钥配置正确,客户机就不必安装agent

如何在Ambari 2.7.4集群中部署DataSphere Studio

如果不使用私钥,也可以在节点上手动安装ambari agent并启动,出现如下提示框:

如何在Ambari 2.7.4集群中部署DataSphere Studio

   

2.3.2 确认要登记的主机


如何在Ambari 2.7.4集群中部署DataSphere Studio

   

2.3.3指定在client上安装的组件


默认只安装全部client

如何在Ambari 2.7.4集群中部署DataSphere Studio

   

2.3.4指定配置组


如何在Ambari 2.7.4集群中部署DataSphere Studio

   

2.3.5 审查配置


如何在Ambari 2.7.4集群中部署DataSphere Studio

   

2.3.6 安装、启动、测试


如何在Ambari 2.7.4集群中部署DataSphere Studio

   

2.3.7完成


如何在Ambari 2.7.4集群中部署DataSphere Studio

2.4 客户机上安装的组件位置及配置文件位置


   

ambari在客户机上安装的组件,都在

/usr/hdp/current文件夹内

配置文件

/etc/下对应的组件文件夹内,但实际都是到/usr/hdp/current下对应组件配置文件的软链接。

知道这些文件的位置,对于后面配置

HADOOP_HOME、HIVE_HOME、SPARK_HOME以及查找配置文件时有帮助。


   

3 安装DSS


   

3.1 安装包


   

采用DSS & Linkis全家桶一键部署安装包(1.3GB)(公众号回复:全家桶安装包)

3.2 依赖项安装


   

如何在Ambari 2.7.4集群中部署DataSphere Studio

3.3 Yum安装nginx


   

如何在Ambari 2.7.4集群中部署DataSphere Studio

3.4 撤销cp/mv/rm别名


   

centos默认在.bashrc中给cp/mv/rm设置了别名,导致安装过程出现很多cp 命令提示是否覆盖安装。输入alias,如果有cp、mv、rm的别名,则应该去掉,以避免大量提示。方法是:

#vi ~/.bashrc       

如何在Ambari 2.7.4集群中部署DataSphere Studio

3.5 修改配置


   

如何在Ambari 2.7.4集群中部署DataSphere Studio

将conf目录下的config.sh.standard.template,修改为config.sh

    cp conf/config.sh.standard.template conf/config.sh

您可以按需修改相关配置参数:

    vi conf/config.sh  

参数说明如下:

如何在Ambari 2.7.4集群中部署DataSphere Studio

   

3.5.1 配置文件示例


如何在Ambari 2.7.4集群中部署DataSphere Studio

3.6 修改数据库配置


   


   

3.6.1 创建数据库


在主机上

#mysql –uroot –pMysql12#create database linkis;GRANT ALL PRIVILEGES ON linkis.* TO linkis@'%' IDENTIFIED BY 'sinosoft1234' WITH GRANT OPTION;

   

3.6.2 配置


如何在Ambari 2.7.4集群中部署DataSphere Studio

3.7 执行安装脚本


 sh bin/install.sh

注意:安装脚本有两处是相对路径,为了正确安装,所以不要进入bin目录执行脚本。


   

3.7.1安装步骤


·         install.sh脚本会询问您安装模式。安装模式分为精简版、标准版,请根据您准备的环境情况,选择合适的安装模式。本文档采用2标准版

·         install.sh脚本会询问您是否需要初始化数据库并导入元数据,linkis和dss 均会询问。

第一次安装必须选:是。


   

3.7.2 验证安装是否成功


通过查看控制台打印的日志信息查看是否安装成功。

如果有错误信息,可以查看具体报错原因。

3.8  访问地址


   

DSS web访问端口:8088

Linkis gateway 的地址:http://127.0.0.1:9001

DSS web 静态文件地址:/dss_linkis/web/dist

DSS web 安装路径:/dss_linkis/web

DSS nginx ip:127.0.0.1

3.9 FAQ


   

您也可以通过查看我们的安装常见问题(公众号回复:安装常见问题),获取问题的解答。


4启动服务


4.1 启动服务


   

  在安装目录执行以下命令,启动所有服务:

如何在Ambari 2.7.4集群中部署DataSphere Studio

如果启动产生了错误信息,可以查看具体报错原因。启动后,各项微服务都会进行通信检测,如果有异常则可以帮助用户定位异常日志和原因。

您可以通过查看我们的启动常见问题(公众号回复启动常见问题,获取问题的解答。

提示:

可以延长linkis和dss这两个项目 bin 目录下的 start-all.sh中sleep的时间,例如都延长为20秒。

也可以运行sh bin/start-all.sh,直接在控制台上看到服务启动情况

如何在Ambari 2.7.4集群中部署DataSphere Studio

4.2 查看是否启动成功


     

   

第一个启动的服务是Eureka,它启动后,就可以在Eureka(http://IP地址:20303/)界面查看 Linkis & DSS 后台各微服务的启动情况。如下图,如Eureka主页出现以下微服务,则表示服务都启动成功,可以正常对外提供服务了:

如何在Ambari 2.7.4集群中部署DataSphere Studio

 

5 坑

5.1 提交上传资源任务失败          


 

 
故障  
:提交上传资源任务失败

 
 operation    failed(操作失败)s!   the reason(原因):   HttpClientResultException: errCode: 10905 ,desc: URL http://127.0.0.1:9001/api/rest_j/v1/bml/upload request failed! ResponseBody is {"method":nu   ll,"status":1,"message":"error code(错误码): 50073, error message(错误信息): 提交上传资源任务失败:errCode: 50001 ,desc: HDFS configuration was not read, please configure hadoop.config.dir or add env:HADOOP_CONF_DIR ,ip   : datastudio.sinobd ,port: 9113 ,serviceKind: bml-server.","data":{"errorMsg":{"serviceKind":"bml-server","level":2,"port":9113,"errCode":50073,"ip":"datastudio.sinobd","desc":"提交上传资源任务失败:errCode: 50001 ,desc: HDFS configuration was not read, please configure hadoop.config.dir or add env:HADOOP_CONF_DIR ,ip: datastudio.sinobd ,port: 9113 ,serviceKind: bml-server"}}}. ,ip: datastudio.sinobd ,port: 9004 ,serviceKind: dss-server  

 

如何在Ambari 2.7.4集群中部署DataSphere Studio

解决方案:安装用户与启动用户必须一致

5.2 有的服务显示已经在运行



 

故障:重启系统后,启动时,显示有的服务器已经在运行,例如

如何在Ambari 2.7.4集群中部署DataSphere Studio  

解决方案:在安装目录下

#sh bin/stop-all.sh
 

正常停止全部服务,然后再重新启动

5.3 启动linkis失败



 

故障:

如何在Ambari 2.7.4集群中部署DataSphere Studio  

解决方案:延长 linkis/bin/start-all.sh 和dss/bin/start-all.sh 中sleep的时间,例如我都延长到20秒。

5.4 上传资源失败



 

故障:

如何在Ambari 2.7.4集群中部署DataSphere Studio  

原因:

安装脚本虽然指定hadoop用户,但运行安装脚本时的用户是root,导致在hadoop中创建的/tmp/linkis文件夹的ower是root。用常规的hdfs命令改变owner无效,需要采用以下命令:


5.4.1 hdfs中tmp/linkis的owner是root:hdfs

sudo -u hdfs hadoop fs -chown -R hadoop:hadoop  /tmp/linkis

看完上述内容是否对您有帮助呢?如果还想对相关知识有进一步的了解或阅读更多相关文章,请关注创新互联行业资讯频道,感谢您对创新互联的支持。


当前文章:如何在Ambari2.7.4集群中部署DataSphereStudio
当前链接:http://cdxtjz.cn/article/iiecpg.html

其他资讯