Ansible Automation Platform 故障排除
对 Ansible Automation Platform 的问题进行故障排除
摘要
对红帽文档提供反馈
如果您对本文档有任何改进建议,或发现了任何错误,请通过 https://access.redhat.com 联系技术支持,以使用 docs-product 组件在 Ansible Automation Platform JIRA 项目中创建一个问题。
第 1 章 诊断问题
要开始对 Ansible Automation Platform 进行故障排除,请使用 OpenShift Container Platform 上的
must-gather
命令或基于虚拟机的安装上的
sos
实用程序来收集配置和诊断信息。您可以将这些工具的输出附加到支持问题单中。
1.1. 使用 must-gather 命令在 OpenShift Container Platform 上对 Ansible Automation Platform 进行故障排除
oc adm must-gather
命令行界面(CLI)命令从 OpenShift Container Platform 上部署的 Ansible Automation Platform 安装收集信息。它收集调试问题通常需要的信息,包括资源定义和服务日志。
运行
oc adm must-gather
CLI 命令会创建一个新目录,其中包含可用于排除故障或附加到支持问题单的新目录。
如果您的 OpenShift 环境无法访问
registry.redhat.io
,且您无法运行
must-gather
命令,则运行
oc adm inspect
命令。
已安装 OpenShift CLI (
oc
)。
登录到集群:
oc login <openshift_url>
根据集群中的访问级别运行以下命令之一:
在整个集群中运行
must-gather
:
oc adm must-gather --image=registry.redhat.io/ansible-automation-platform-24/aap-must-gather-rhel8 --dest-dir <dest_dir>
-
--image
指定收集数据的镜像--dest-dir
指定输出的目录 为集群中的特定命名空间运行must-gather
:oc adm must-gather --image=registry.redhat.io/ansible-automation-platform-24/aap-must-gather-rhel8 --dest-dir <dest_dir> – /usr/bin/ns-gather <namespace>
-
- /usr/bin/ns-gather
将must-gather
数据收集限制为指定命名空间 要将must-gather
归档附加到支持问题单中,请从之前创建的must-gather
目录创建一个压缩文件,并将其附加到您的支持问题单中。 例如,在使用 Linux 操作系统的计算机中,运行以下命令,将 <must-gather-local.5421342344627712289/>
; 替换为must-gather
目录名称:$ tar cvaf must-gather.tar.gz <must-gather.local.5421342344627712289/>
-
其他资源
-
有关安装 OpenShift CLI (
oc
)的详情 ,请参考 OpenShift Container Platform 文档中的安装 OpenShift CLI 。 有关运行oc adm inspect
命令的详情,请参考 OpenShift Container Platform 文档中的 ocm adm inspect 部分。
1.2. 通过生成 sos 报告,对基于虚拟机的安装进行故障排除
sos
实用程序在基于虚拟机的安装中从 Ansible Automation Platform 收集配置、诊断和故障排除数据。
有关安装和使用
sos
工具的更多信息,
请参阅为技术支持生成 sos 报告
。
第 2 章 自动化控制器故障排除的资源
- 有关自动化控制器 故障排除的详情,请参考自动化控制器 管理指南中的对自动化控制器进行故障排除。 有关对自动化控制器性能进行故障排除的信息,请参阅 自动化控制器管理指南中的自动化控制器的性能故障排除 。
第 3 章 备份和恢复
- 有关执行 Ansible Automation Platform 的 备份和恢复 的详情,请参考自动化控制器管理指南中的备份和恢复。 有关在 OpenShift Container Platform 上安装 Ansible Automation Platform Operator 的备份和恢复故障排除部分,请参阅 Red Hat Ansible Automation Platform Operator 备份和恢复指南中的故障排除部分。 https://docs.redhat.com/en/documentation/red_hat_ansible_automation_platform/2.4/html/red_hat_ansible_automation_platform_operator_backup_and_recovery_guide/aap-troubleshoot-backup-recover
第 4 章 执行环境
对执行环境的问题进行故障排除。
4.1. 问题 - 无法为私有自动化中心上的执行环境镜像选择 "Use in Controller" 选项
您不能将
Use in Controller
选项用于私有自动化中心上的执行环境镜像。您还会收到错误消息:"No Controllers available"。
要解决这个问题,将自动化控制器连接到您的私有自动化中心实例。
在私有自动化中心上更改
/etc/pulp/settings.py
文件,并根据您的配置添加以下参数之一:
单个控制器
CONNECTED_ANSIBLE_CONTROLLERS = ['<https://my.controller.node>']
负载均衡器后面的很多控制器
CONNECTED_ANSIBLE_CONTROLLERS = ['<https://my.controller.loadbalancer>']
没有负载均衡器的许多控制器
CONNECTED_ANSIBLE_CONTROLLERS = ['<https://my.controller.node1>', '<https://my.controller2.node2>']
停止所有私有自动化中心服务:
# systemctl stop pulpcore.service pulpcore-api.service pulpcore-content.service [email protected] [email protected] nginx.service redis.service
重启所有私有自动化中心服务:
# systemctl start pulpcore.service pulpcore-api.service pulpcore-content.service [email protected] [email protected] nginx.service redis.service