archive_path: /home/teuthworker/mnt/teuthology/jcollin-2026-02-17_12:44:00-upgrade:reef-x:stress-split-wip-jcollin-testing-20260217.080557-squid-distro-default-trial/53404
branch: wip-jcollin-testing-20260217.080557-squid
description: upgrade:reef-x:stress-split/{0-distro/centos_9.stream 0-roles 1-start
  2-first-half-tasks/rbd-cls 3-stress-tasks/{radosbench rbd-cls rbd-import-export
  rbd_api readwrite snaps-few-objects} 4-second-half-tasks/radosbench mon_election/classic
  overrides/ignorelist_health}
email: jcollin@redhat.com
first-half-sequence:
- cephadm.shell:
    env:
    - sha1
    mon.a:
    - ceph config set mgr mgr/cephadm/daemon_cache_timeout 60
    - ceph config set global log_to_journald false --force
    - echo wait for mgr daemons to upgrade
    - ceph orch upgrade start --image quay.ceph.io/ceph-ci/ceph:$sha1 --daemon-types
      mgr
    - while ceph orch upgrade status | jq '.in_progress' | grep true && ! ceph orch
      upgrade status | jq '.message' | grep Error ; do ceph orch ps ; ceph versions
      ; ceph orch upgrade status ; sleep 30 ; done
    - echo wait for minority of mons to upgrade
    - ceph orch upgrade start --image quay.ceph.io/ceph-ci/ceph:$sha1 --daemon-types
      mon --limit 1
    - while ceph orch upgrade status | jq '.in_progress' | grep true && ! ceph orch
      upgrade status | jq '.message' | grep Error ; do ceph orch ps ; ceph versions
      ; ceph orch upgrade status ; sleep 30 ; done
    - sleep 60
    - echo wait for majority of mons to upgrade
    - ceph orch upgrade start --image quay.ceph.io/ceph-ci/ceph:$sha1 --daemon-types
      mon --limit 1
    - while ceph orch upgrade status | jq '.in_progress' | grep true && ! ceph orch
      upgrade status | jq '.message' | grep Error ; do ceph orch ps ; ceph versions
      ; ceph orch upgrade status ; sleep 30 ; done
    - sleep 60
    - echo wait for all mons to upgrade
    - ceph orch upgrade start --image quay.ceph.io/ceph-ci/ceph:$sha1 --daemon-types
      mon
    - while ceph orch upgrade status | jq '.in_progress' | grep true && ! ceph orch
      upgrade status | jq '.message' | grep Error ; do ceph orch ps ; ceph versions
      ; ceph orch upgrade status ; sleep 30 ; done
    - sleep 60
    - echo wait for half of osds to upgrade
    - ceph orch upgrade start --image quay.ceph.io/ceph-ci/ceph:$sha1 --daemon-types
      osd --limit 4
    - while ceph orch upgrade status | jq '.in_progress' | grep true && ! ceph orch
      upgrade status | jq '.message' | grep Error ; do ceph orch ps ; ceph versions
      ; ceph orch upgrade status ; sleep 30 ; done
first-half-tasks:
- workunit:
    branch: reef
    clients:
      client.0:
      - cls/test_cls_rbd.sh
    env:
      CLS_RBD_GTEST_FILTER: '*:-TestClsRbd.mirror_snapshot'
- print: '**** done cls/test_cls_rbd.sh 5-workload'
first_in_suite: false
flavor: default
job_id: '53404'
kernel:
  branch: distro
  kdb: 1
  sha1: distro
last_in_suite: false
machine_type: trial
meta:
- desc: 'run basic cls tests for rbd

    '
- desc: 'run randomized correctness test for rados operations

    generate write load with rados bench

    '
- desc: 'run basic cls tests for rbd

    '
- desc: 'run basic import/export cli tests for rbd

    '
- desc: 'librbd C and C++ api tests

    '
- desc: 'randomized correctness test for rados operations on a replicated pool,

    using only reads, writes, and deletes

    '
- desc: 'randomized correctness test for rados operations on a replicated pool with
    snapshot operations

    '
- desc: 'run randomized correctness test for rados operations

    generate write load with rados bench

    '
name: jcollin-2026-02-17_12:44:00-upgrade:reef-x:stress-split-wip-jcollin-testing-20260217.080557-squid-distro-default-trial
no_nested_subset: false
openstack:
- volumes:
    count: 4
    size: 10
os_type: centos
os_version: 9.stream
overrides:
  admin_socket:
    branch: wip-jcollin-testing-20260217.080557-squid
  ceph:
    conf:
      global:
        mon election default strategy: 1
      mgr:
        debug mgr: 20
        debug ms: 1
      mon:
        debug mon: 20
        debug ms: 1
        debug paxos: 20
      osd:
        debug ms: 1
        debug osd: 20
        osd shutdown pgref assert: true
    create_rbd_pool: true
    flavor: default
    log-ignorelist:
    - \(MDS_ALL_DOWN\)
    - \(MDS_UP_LESS_THAN_MAX\)
    - do not have an application enabled
    - application not enabled
    - or freeform for custom applications
    - POOL_APP_NOT_ENABLED
    - is down
    - OSD_DOWN
    - mons down
    - mon down
    - MON_DOWN
    - out of quorum
    - PG_AVAILABILITY
    - PG_DEGRADED
    - Reduced data availability
    - Degraded data redundancy
    - pg .* is stuck inactive
    - pg .* is .*degraded
    - FS_DEGRADED
    - OSDMAP_FLAGS
    - OSD_UPGRADE_FINISHED
    - Replacing daemon mds
    - MDS_ALL_DOWN
    - MDS_UP_LESS_THAN_MAX
    - filesystem is offline
    - with fewer MDS than max_mds
    - MDS_ALL_DOWN
    - MDS_UP_LESS_THAN_MAX
    - OSD_SLOW_PING_TIME
    - reached quota
    - running out of quota
    - overall HEALTH_
    - CACHE_POOL_NO_HIT_SET
    - pool\(s\) full
    - POOL_FULL
    - SMALLER_PGP_NUM
    - SLOW_OPS
    - CACHE_POOL_NEAR_FULL
    - OBJECT_MISPLACED
    - slow request
    - noscrub
    - nodeep-scrub
    sha1: 5c7d9533eb2b3fdb031dd48c8022c4d967a9a910
  ceph-deploy:
    conf:
      client:
        log file: /var/log/ceph/ceph-$name.$pid.log
      mon: {}
  install:
    ceph:
      flavor: default
      sha1: 5c7d9533eb2b3fdb031dd48c8022c4d967a9a910
  selinux:
    allowlist:
    - scontext=system_u:system_r:logrotate_t:s0
    - scontext=system_u:system_r:getty_t:s0
  workunit:
    branch: wip-jcollin-testing-20260217.080557-squid
    sha1: 5c7d9533eb2b3fdb031dd48c8022c4d967a9a910
owner: scheduled_jcollin@soko04.front.sepia.ceph.com
priority: 200
repo: https://github.com/ceph/ceph-ci.git
roles:
- - mon.a
  - mon.c
  - mgr.y
  - osd.0
  - osd.1
  - osd.2
  - osd.3
  - client.0
  - node-exporter.a
  - alertmanager.a
- - mon.b
  - mgr.x
  - osd.4
  - osd.5
  - osd.6
  - osd.7
  - client.1
  - prometheus.a
  - grafana.a
  - node-exporter.b
second-half-sequence:
  sequential:
  - cephadm.shell:
      env:
      - sha1
      mon.a:
      - sleep 60
      - echo wait for upgrade to complete
      - ceph orch upgrade start --image quay.ceph.io/ceph-ci/ceph:$sha1
      - while ceph orch upgrade status | jq '.in_progress' | grep true && ! ceph orch
        upgrade status | jq '.message' | grep Error ; do ceph orch ps ; ceph versions
        ; ceph orch upgrade status ; sleep 30 ; done
      - echo upgrade complete
      - ceph orch ps
      - ceph versions
      - ceph versions | jq -e '.overall | length == 1'
      - ceph versions | jq -e '.overall | keys' | grep $sha1
second-half-tasks:
- full_sequential:
  - radosbench:
      clients:
      - client.0
      time: 90
  - radosbench:
      clients:
      - client.0
      time: 90
  - radosbench:
      clients:
      - client.0
      time: 90
- print: '**** done end radosbench.yaml'
seed: 7741
sha1: 5c7d9533eb2b3fdb031dd48c8022c4d967a9a910
sleep_before_teardown: 0
stress-tasks:
- thrashosds:
    aggressive_pg_num_changes: false
    chance_force_recovery: 0
    chance_pgnum_grow: 1
    chance_pgpnum_fix: 1
    chance_thrash_cluster_full: 0
    chance_thrash_pg_upmap: 0
    chance_thrash_pg_upmap_items: 0
    disable_objectstore_tool_tests: true
    timeout: 1200
- full_sequential:
  - radosbench:
      clients:
      - client.0
      time: 90
  - radosbench:
      clients:
      - client.0
      time: 90
  - radosbench:
      clients:
      - client.0
      time: 90
  - radosbench:
      clients:
      - client.0
      time: 90
  - radosbench:
      clients:
      - client.0
      time: 90
  - radosbench:
      clients:
      - client.0
      time: 90
- print: '**** done end radosbench.yaml'
- workunit:
    branch: reef
    clients:
      client.0:
      - cls/test_cls_rbd.sh
    env:
      CLS_RBD_GTEST_FILTER: '*:-TestClsRbd.mirror_snapshot'
- print: '**** done cls/test_cls_rbd.sh 5-workload'
- workunit:
    branch: reef
    clients:
      client.0:
      - rbd/import_export.sh
    env:
      RBD_CREATE_ARGS: --new-format
- print: '**** done rbd/import_export.sh 5-workload'
- workunit:
    branch: reef
    clients:
      client.0:
      - rbd/test_librbd.sh
    env:
      RBD_FEATURES: '61'
- print: '**** done rbd/test_librbd.sh 7-workload'
- full_sequential:
  - rados:
      clients:
      - client.0
      objects: 500
      op_weights:
        delete: 10
        read: 45
        write: 45
      ops: 4000
      write_append_excl: false
- print: '**** done rados/readwrite 5-workload'
- full_sequential:
  - rados:
      clients:
      - client.0
      objects: 50
      op_weights:
        delete: 50
        read: 100
        rollback: 50
        snap_create: 50
        snap_remove: 50
        write: 100
      ops: 4000
      write_append_excl: false
- print: '**** done rados/snaps-few-objects 5-workload'
suite: upgrade:reef-x:stress-split
suite_branch: wip-jcollin-testing-20260217.080557-squid
suite_path: /home/teuthworker/src/github.com_ceph_ceph-c_5c7d9533eb2b3fdb031dd48c8022c4d967a9a910/qa
suite_relpath: qa
suite_repo: https://github.com/ceph/ceph-ci.git
suite_sha1: 5c7d9533eb2b3fdb031dd48c8022c4d967a9a910
targets:
  trial063.front.sepia.ceph.com: ecdsa-sha2-nistp256 AAAAE2VjZHNhLXNoYTItbmlzdHAyNTYAAAAIbmlzdHAyNTYAAABBBFcNbUHT2wIRGsJGrciYnJGDhCa5v/bMfZFH2nCKdB92lqffkw4Y8jJt6iTQXj4gcDoCK4pcPXwgFrfbU0NcUjQ=
  trial092.front.sepia.ceph.com: ecdsa-sha2-nistp256 AAAAE2VjZHNhLXNoYTItbmlzdHAyNTYAAAAIbmlzdHAyNTYAAABBBIOLqVXNcy7oqZ2K9V+hI9HfhZ7MRioFw0dhmdl9HXQ9Z/jOjXrq24ryNS+Gz8cD98kiA34a/frJa1gAbXiv/L4=
tasks:
- pexec:
    all:
    - sudo dnf remove nvme-cli -y
    - sudo dnf install nvmetcli nvme-cli -y
- install:
    branch: reef
    exclude_packages:
    - ceph-volume
- cephadm:
    compiled_cephadm_branch: reef
    conf:
      osd:
        osd_class_default_list: '*'
        osd_class_load_list: '*'
    image: quay.ceph.io/ceph-ci/ceph:reef
- cephadm.shell:
    mon.a:
    - ceph fs volume create foo
    - ceph config set mon mon_warn_on_insecure_global_id_reclaim false --force
    - ceph config set mon mon_warn_on_insecure_global_id_reclaim_allowed false --force
- ceph.healthy: null
- print: '**** upgrading first half of cluster, with stress ****'
- parallel:
  - first-half-tasks
  - first-half-sequence
- print: '**** done upgrading first half of cluster ****'
- ceph.healthy: null
- print: '**** applying stress + thrashing to mixed-version cluster ****'
- parallel:
  - stress-tasks
- ceph.healthy: null
- print: '**** finishing upgrade ****'
- parallel:
  - second-half-tasks
  - second-half-sequence
- ceph.healthy: null
teuthology:
  fragments_dropped: []
  meta: {}
  postmerge: []
teuthology_branch: main
teuthology_sha1: fa17720d0088c3ac28e473468bfc79eeaff5cd38
timestamp: 2026-02-17_12:44:00
tube: trial
user: jcollin
verbose: true
worker_log: /home/teuthworker/mnt/teuthology/worker_logs/dispatcher.trial.3682