开放能力
开发平台
行业应用
生态合作
开发与教学
资讯 社区 控制台
技术能力
语音技术
图像技术
文字识别
人脸与人体识别
视频技术
AR与VR
自然语言处理
知识图谱
数据智能
场景方案
部署方案
行业应用
智能教育
智能医疗
智能零售
智能工业
企业服务
智能政务
智能农业
信息服务
智能园区
智能硬件
文字识别

    安装部署问题排查


    在私有化部署过程中遇到的部署相关问题,可以查看此文档进行解决。

    若文档仍未解决您的问题,请提交工单联系百度的工作人员

    FAQ

    1.容器日志报错:cudaErrorNoDevice: no CUDA-capable device is detected at

    查看/home/baidu/work/模型名称/start/start-1.sh文件中指定显卡ID的地方 是否是对的,显卡ID从序号0开始

    2.'ascii' codec can't encode characters in position 0-2: ordinal not in range(128)

    image2020-12-14_16-48-18.png

    机器系统环境编码有问题,PYTHONIOENCODING=utf-8 python install.py inall用这个命令安装就可以。

    3.安装docker报错no such file or directory: ‘/etc/sysconfig/network-scripts/ifcfg-docker0’文件不存在

    需要手动添加一下/etc/sysconfig/network-scripts/ifcfg-docker0这个文件,内容如下,然后重新执行安装

    STP=no
    TYPE=Bridge
    PROXY_METHOD=none
    BROWSER_ONLY=no
    BOOTPROTO=none
    IPADDR=172.17.0.1
    PREFIX=16
    DEFROUTE=yes
    IPV4_FAILURE_FATAL=no
    IPV4_DNS_PRIORITY=100
    IPV6INIT=no
    NAME=docker0
    UUID=a519039a-27f3-40a0-b571-e2aefc39d20a
    DEVICE=docker0
    ONBOOT=yes
    ZONE=trusted

    4、安装docker-ce,依赖包冲突

    出现需要安装依赖的版本比系统自带版本低的情况,导致安装失败,详细报错如下

    --> 解决依赖关系完成
    错误:软件包:libsemanage-python-2.5-8.el7.x86_64 (Local_yum)
              需要:libsemanage = 2.5-8.el7
              已安装: libsemanage-2.5-14.el7.x86_64 (@anaconda)
                  libsemanage = 2.5-14.el7
              可用: libsemanage-2.5-8.el7.x86_64 (Local_yum)
                  libsemanage = 2.5-8.el7
    错误:软件包:audit-libs-python-2.7.6-3.el7.x86_64 (Local_yum)
              需要:audit-libs(x86-64) = 2.7.6-3.el7
              已安装: audit-libs-2.8.5-4.el7.x86_64 (@anaconda)
                  audit-libs(x86-64) = 2.8.5-4.el7
              可用: audit-libs-2.7.6-3.el7.x86_64 (Local_yum)
                  audit-libs(x86-64) = 2.7.6-3.el7
    错误:软件包:policycoreutils-python-2.5-17.1.el7.x86_64 (Local_yum)
              需要:policycoreutils = 2.5-17.1.el7
              已安装: policycoreutils-2.5-34.el7.x86_64 (@anaconda)
                  policycoreutils = 2.5-34.el7
              可用: policycoreutils-2.5-17.1.el7.x86_64 (Local_yum)
                  policycoreutils = 2.5-17.1.el7
     您可以尝试添加 --skip-broken 选项来解决该问题
     您可以尝试执行:rpm -Va --nofiles --nodigest
    
    2021-10-21 13:58:19,993 - 7100 - install - INFO - subprocess finished,cmd : ['yum', 'install', '-y', 'docker-ce']

    解决方案: 服务器联网条件下,则可以通过在线安装解决。

    yum -y install docker-ce

    5、鉴权服务安装或启动失败,日志报错too many open files

    原因:句柄数超出系统限制

    首先查看当前全部进程占用句柄数总和:

    lsof|awk '{print $2}'|wc -l

    然后执行 ulimit -a 查看当前系统设置的最大句柄数是多少,如下图 open files即是最大句柄数设置

    1301624-20191029110132330-1470883134.png

    如果当前总和超过最大句柄限制,则修改最大句柄数即可

    修改方法如下:

    echo "* soft nofile 65536" >> /etc/security/limits.conf
    echo "* hard nofile 65536" >> /etc/security/limits.conf

    如果/etc/security/limits.conf里已经做过如上调整,修改其阈值即可。

    退出当然用户,重新ssh登陆使其生效。再次执行 ulimit -a验证是否生效

    如果修改后,程序运行一段时间之后继续出现Too many open files异常,那么就应该查看句柄信息,进一步分析是什么句柄占用最多

    cat lsof.log | awk '{print $8}' | sort | uniq -c | sort -rn | head -n 10

    然后再进行分析,句柄问题解决后,重新安装或启动鉴权服务即可。

    上一篇
    运维手册
    下一篇
    鉴权服务排查