LXR linux/drivers/gpu/drm/i915/selftests/i915

   1/*
   2 * Copyright © 2016 Intel Corporation
   3 *
   4 * Permission is hereby granted, free of charge, to any person obtaining a
   5 * copy of this software and associated documentation files (the "Software"),
   6 * to deal in the Software without restriction, including without limitation
   7 * the rights to use, copy, modify, merge, publish, distribute, sublicense,
   8 * and/or sell copies of the Software, and to permit persons to whom the
   9 * Software is furnished to do so, subject to the following conditions:
  10 *
  11 * The above copyright notice and this permission notice (including the next
  12 * paragraph) shall be included in all copies or substantial portions of the
  13 * Software.
  14 *
  15 * THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
  16 * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
  17 * FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT.  IN NO EVENT SHALL
  18 * THE AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
  19 * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING
  20 * FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS
  21 * IN THE SOFTWARE.
  22 *
  23 */
  24
  25#include <linux/prime_numbers.h>
  26#include <linux/pm_qos.h>
  27#include <linux/sort.h>
  28
  29#include "gem/i915_gem_pm.h"
  30#include "gem/selftests/mock_context.h"
  31
  32#include "gt/intel_engine_heartbeat.h"
  33#include "gt/intel_engine_pm.h"
  34#include "gt/intel_engine_user.h"
  35#include "gt/intel_gt.h"
  36#include "gt/intel_gt_requests.h"
  37#include "gt/selftest_engine_heartbeat.h"
  38
  39#include "i915_random.h"
  40#include "i915_selftest.h"
  41#include "igt_flush_test.h"
  42#include "igt_live_test.h"
  43#include "igt_spinner.h"
  44#include "lib_sw_fence.h"
  45
  46#include "mock_drm.h"
  47#include "mock_gem_device.h"
  48
  49static unsigned int num_uabi_engines(struct drm_i915_private *i915)
  50{
  51        struct intel_engine_cs *engine;
  52        unsigned int count;
  53
  54        count = 0;
  55        for_each_uabi_engine(engine, i915)
  56                count++;
  57
  58        return count;
  59}
  60
  61static struct intel_engine_cs *rcs0(struct drm_i915_private *i915)
  62{
  63        return intel_engine_lookup_user(i915, I915_ENGINE_CLASS_RENDER, 0);
  64}
  65
  66static int igt_add_request(void *arg)
  67{
  68        struct drm_i915_private *i915 = arg;
  69        struct i915_request *request;
  70
  71        /* Basic preliminary test to create a request and let it loose! */
  72
  73        request = mock_request(rcs0(i915)->kernel_context, HZ / 10);
  74        if (!request)
  75                return -ENOMEM;
  76
  77        i915_request_add(request);
  78
  79        return 0;
  80}
  81
  82static int igt_wait_request(void *arg)
  83{
  84        const long T = HZ / 4;
  85        struct drm_i915_private *i915 = arg;
  86        struct i915_request *request;
  87        int err = -EINVAL;
  88
  89        /* Submit a request, then wait upon it */
  90
  91        request = mock_request(rcs0(i915)->kernel_context, T);
  92        if (!request)
  93                return -ENOMEM;
  94
  95        i915_request_get(request);
  96
  97        if (i915_request_wait(request, 0, 0) != -ETIME) {
  98                pr_err("request wait (busy query) succeeded (expected timeout before submit!)\n");
  99                goto out_request;
 100        }
 101
 102        if (i915_request_wait(request, 0, T) != -ETIME) {
 103                pr_err("request wait succeeded (expected timeout before submit!)\n");
 104                goto out_request;
 105        }
 106
 107        if (i915_request_completed(request)) {
 108                pr_err("request completed before submit!!\n");
 109                goto out_request;
 110        }
 111
 112        i915_request_add(request);
 113
 114        if (i915_request_wait(request, 0, 0) != -ETIME) {
 115                pr_err("request wait (busy query) succeeded (expected timeout after submit!)\n");
 116                goto out_request;
 117        }
 118
 119        if (i915_request_completed(request)) {
 120                pr_err("request completed immediately!\n");
 121                goto out_request;
 122        }
 123
 124        if (i915_request_wait(request, 0, T / 2) != -ETIME) {
 125                pr_err("request wait succeeded (expected timeout!)\n");
 126                goto out_request;
 127        }
 128
 129        if (i915_request_wait(request, 0, T) == -ETIME) {
 130                pr_err("request wait timed out!\n");
 131                goto out_request;
 132        }
 133
 134        if (!i915_request_completed(request)) {
 135                pr_err("request not complete after waiting!\n");
 136                goto out_request;
 137        }
 138
 139        if (i915_request_wait(request, 0, T) == -ETIME) {
 140                pr_err("request wait timed out when already complete!\n");
 141                goto out_request;
 142        }
 143
 144        err = 0;
 145out_request:
 146        i915_request_put(request);
 147        mock_device_flush(i915);
 148        return err;
 149}
 150
 151static int igt_fence_wait(void *arg)
 152{
 153        const long T = HZ / 4;
 154        struct drm_i915_private *i915 = arg;
 155        struct i915_request *request;
 156        int err = -EINVAL;
 157
 158        /* Submit a request, treat it as a fence and wait upon it */
 159
 160        request = mock_request(rcs0(i915)->kernel_context, T);
 161        if (!request)
 162                return -ENOMEM;
 163
 164        if (dma_fence_wait_timeout(&request->fence, false, T) != -ETIME) {
 165                pr_err("fence wait success before submit (expected timeout)!\n");
 166                goto out;
 167        }
 168
 169        i915_request_add(request);
 170
 171        if (dma_fence_is_signaled(&request->fence)) {
 172                pr_err("fence signaled immediately!\n");
 173                goto out;
 174        }
 175
 176        if (dma_fence_wait_timeout(&request->fence, false, T / 2) != -ETIME) {
 177                pr_err("fence wait success after submit (expected timeout)!\n");
 178                goto out;
 179        }
 180
 181        if (dma_fence_wait_timeout(&request->fence, false, T) <= 0) {
 182                pr_err("fence wait timed out (expected success)!\n");
 183                goto out;
 184        }
 185
 186        if (!dma_fence_is_signaled(&request->fence)) {
 187                pr_err("fence unsignaled after waiting!\n");
 188                goto out;
 189        }
 190
 191        if (dma_fence_wait_timeout(&request->fence, false, T) <= 0) {
 192                pr_err("fence wait timed out when complete (expected success)!\n");
 193                goto out;
 194        }
 195
 196        err = 0;
 197out:
 198        mock_device_flush(i915);
 199        return err;
 200}
 201
 202static int igt_request_rewind(void *arg)
 203{
 204        struct drm_i915_private *i915 = arg;
 205        struct i915_request *request, *vip;
 206        struct i915_gem_context *ctx[2];
 207        struct intel_context *ce;
 208        int err = -EINVAL;
 209
 210        ctx[0] = mock_context(i915, "A");
 211
 212        ce = i915_gem_context_get_engine(ctx[0], RCS0);
 213        GEM_BUG_ON(IS_ERR(ce));
 214        request = mock_request(ce, 2 * HZ);
 215        intel_context_put(ce);
 216        if (!request) {
 217                err = -ENOMEM;
 218                goto err_context_0;
 219        }
 220
 221        i915_request_get(request);
 222        i915_request_add(request);
 223
 224        ctx[1] = mock_context(i915, "B");
 225
 226        ce = i915_gem_context_get_engine(ctx[1], RCS0);
 227        GEM_BUG_ON(IS_ERR(ce));
 228        vip = mock_request(ce, 0);
 229        intel_context_put(ce);
 230        if (!vip) {
 231                err = -ENOMEM;
 232                goto err_context_1;
 233        }
 234
 235        /* Simulate preemption by manual reordering */
 236        if (!mock_cancel_request(request)) {
 237                pr_err("failed to cancel request (already executed)!\n");
 238                i915_request_add(vip);
 239                goto err_context_1;
 240        }
 241        i915_request_get(vip);
 242        i915_request_add(vip);
 243        rcu_read_lock();
 244        request->engine->submit_request(request);
 245        rcu_read_unlock();
 246
 247
 248        if (i915_request_wait(vip, 0, HZ) == -ETIME) {
 249                pr_err("timed out waiting for high priority request\n");
 250                goto err;
 251        }
 252
 253        if (i915_request_completed(request)) {
 254                pr_err("low priority request already completed\n");
 255                goto err;
 256        }
 257
 258        err = 0;
 259err:
 260        i915_request_put(vip);
 261err_context_1:
 262        mock_context_close(ctx[1]);
 263        i915_request_put(request);
 264err_context_0:
 265        mock_context_close(ctx[0]);
 266        mock_device_flush(i915);
 267        return err;
 268}
 269
 270struct smoketest {
 271        struct intel_engine_cs *engine;
 272        struct i915_gem_context **contexts;
 273        atomic_long_t num_waits, num_fences;
 274        int ncontexts, max_batch;
 275        struct i915_request *(*request_alloc)(struct intel_context *ce);
 276};
 277
 278static struct i915_request *
 279__mock_request_alloc(struct intel_context *ce)
 280{
 281        return mock_request(ce, 0);
 282}
 283
 284static struct i915_request *
 285__live_request_alloc(struct intel_context *ce)
 286{
 287        return intel_context_create_request(ce);
 288}
 289
 290static int __igt_breadcrumbs_smoketest(void *arg)
 291{
 292        struct smoketest *t = arg;
 293        const unsigned int max_batch = min(t->ncontexts, t->max_batch) - 1;
 294        const unsigned int total = 4 * t->ncontexts + 1;
 295        unsigned int num_waits = 0, num_fences = 0;
 296        struct i915_request **requests;
 297        I915_RND_STATE(prng);
 298        unsigned int *order;
 299        int err = 0;
 300
 301        /*
 302         * A very simple test to catch the most egregious of list handling bugs.
 303         *
 304         * At its heart, we simply create oodles of requests running across
 305         * multiple kthreads and enable signaling on them, for the sole purpose
 306         * of stressing our breadcrumb handling. The only inspection we do is
 307         * that the fences were marked as signaled.
 308         */
 309
 310        requests = kcalloc(total, sizeof(*requests), GFP_KERNEL);
 311        if (!requests)
 312                return -ENOMEM;
 313
 314        order = i915_random_order(total, &prng);
 315        if (!order) {
 316                err = -ENOMEM;
 317                goto out_requests;
 318        }
 319
 320        while (!kthread_should_stop()) {
 321                struct i915_sw_fence *submit, *wait;
 322                unsigned int n, count;
 323
 324                submit = heap_fence_create(GFP_KERNEL);
 325                if (!submit) {
 326                        err = -ENOMEM;
 327                        break;
 328                }
 329
 330                wait = heap_fence_create(GFP_KERNEL);
 331                if (!wait) {
 332                        i915_sw_fence_commit(submit);
 333                        heap_fence_put(submit);
 334                        err = ENOMEM;
 335                        break;
 336                }
 337
 338                i915_random_reorder(order, total, &prng);
 339                count = 1 + i915_prandom_u32_max_state(max_batch, &prng);
 340
 341                for (n = 0; n < count; n++) {
 342                        struct i915_gem_context *ctx =
 343                                t->contexts[order[n] % t->ncontexts];
 344                        struct i915_request *rq;
 345                        struct intel_context *ce;
 346
 347                        ce = i915_gem_context_get_engine(ctx, t->engine->legacy_idx);
 348                        GEM_BUG_ON(IS_ERR(ce));
 349                        rq = t->request_alloc(ce);
 350                        intel_context_put(ce);
 351                        if (IS_ERR(rq)) {
 352                                err = PTR_ERR(rq);
 353                                count = n;
 354                                break;
 355                        }
 356
 357                        err = i915_sw_fence_await_sw_fence_gfp(&rq->submit,
 358                                                               submit,
 359                                                               GFP_KERNEL);
 360
 361                        requests[n] = i915_request_get(rq);
 362                        i915_request_add(rq);
 363
 364                        if (err >= 0)
 365                                err = i915_sw_fence_await_dma_fence(wait,
 366                                                                    &rq->fence,
 367                                                                    0,
 368                                                                    GFP_KERNEL);
 369
 370                        if (err < 0) {
 371                                i915_request_put(rq);
 372                                count = n;
 373                                break;
 374                        }
 375                }
 376
 377                i915_sw_fence_commit(submit);
 378                i915_sw_fence_commit(wait);
 379
 380                if (!wait_event_timeout(wait->wait,
 381                                        i915_sw_fence_done(wait),
 382                                        5 * HZ)) {
 383                        struct i915_request *rq = requests[count - 1];
 384
 385                        pr_err("waiting for %d/%d fences (last %llx:%lld) on %s timed out!\n",
 386                               atomic_read(&wait->pending), count,
 387                               rq->fence.context, rq->fence.seqno,
 388                               t->engine->name);
 389                        GEM_TRACE_DUMP();
 390
 391                        intel_gt_set_wedged(t->engine->gt);
 392                        GEM_BUG_ON(!i915_request_completed(rq));
 393                        i915_sw_fence_wait(wait);
 394                        err = -EIO;
 395                }
 396
 397                for (n = 0; n < count; n++) {
 398                        struct i915_request *rq = requests[n];
 399
 400                        if (!test_bit(DMA_FENCE_FLAG_SIGNALED_BIT,
 401                                      &rq->fence.flags)) {
 402                                pr_err("%llu:%llu was not signaled!\n",
 403                                       rq->fence.context, rq->fence.seqno);
 404                                err = -EINVAL;
 405                        }
 406
 407                        i915_request_put(rq);
 408                }
 409
 410                heap_fence_put(wait);
 411                heap_fence_put(submit);
 412
 413                if (err < 0)
 414                        break;
 415
 416                num_fences += count;
 417                num_waits++;
 418
 419                cond_resched();
 420        }
 421
 422        atomic_long_add(num_fences, &t->num_fences);
 423        atomic_long_add(num_waits, &t->num_waits);
 424
 425        kfree(order);
 426out_requests:
 427        kfree(requests);
 428        return err;
 429}
 430
 431static int mock_breadcrumbs_smoketest(void *arg)
 432{
 433        struct drm_i915_private *i915 = arg;
 434        struct smoketest t = {
 435                .engine = rcs0(i915),
 436                .ncontexts = 1024,
 437                .max_batch = 1024,
 438                .request_alloc = __mock_request_alloc
 439        };
 440        unsigned int ncpus = num_online_cpus();
 441        struct task_struct **threads;
 442        unsigned int n;
 443        int ret = 0;
 444
 445        /*
 446         * Smoketest our breadcrumb/signal handling for requests across multiple
 447         * threads. A very simple test to only catch the most egregious of bugs.
 448         * See __igt_breadcrumbs_smoketest();
 449         */
 450
 451        threads = kcalloc(ncpus, sizeof(*threads), GFP_KERNEL);
 452        if (!threads)
 453                return -ENOMEM;
 454
 455        t.contexts = kcalloc(t.ncontexts, sizeof(*t.contexts), GFP_KERNEL);
 456        if (!t.contexts) {
 457                ret = -ENOMEM;
 458                goto out_threads;
 459        }
 460
 461        for (n = 0; n < t.ncontexts; n++) {
 462                t.contexts[n] = mock_context(t.engine->i915, "mock");
 463                if (!t.contexts[n]) {
 464                        ret = -ENOMEM;
 465                        goto out_contexts;
 466                }
 467        }
 468
 469        for (n = 0; n < ncpus; n++) {
 470                threads[n] = kthread_run(__igt_breadcrumbs_smoketest,
 471                                         &t, "igt/%d", n);
 472                if (IS_ERR(threads[n])) {
 473                        ret = PTR_ERR(threads[n]);
 474                        ncpus = n;
 475                        break;
 476                }
 477
 478                get_task_struct(threads[n]);
 479        }
 480
 481        yield(); /* start all threads before we begin */
 482        msleep(jiffies_to_msecs(i915_selftest.timeout_jiffies));
 483
 484        for (n = 0; n < ncpus; n++) {
 485                int err;
 486
 487                err = kthread_stop(threads[n]);
 488                if (err < 0 && !ret)
 489                        ret = err;
 490
 491                put_task_struct(threads[n]);
 492        }
 493        pr_info("Completed %lu waits for %lu fence across %d cpus\n",
 494                atomic_long_read(&t.num_waits),
 495                atomic_long_read(&t.num_fences),
 496                ncpus);
 497
 498out_contexts:
 499        for (n = 0; n < t.ncontexts; n++) {
 500                if (!t.contexts[n])
 501                        break;
 502                mock_context_close(t.contexts[n]);
 503        }
 504        kfree(t.contexts);
 505out_threads:
 506        kfree(threads);
 507        return ret;
 508}
 509
 510int i915_request_mock_selftests(void)
 511{
 512        static const struct i915_subtest tests[] = {
 513                SUBTEST(igt_add_request),
 514                SUBTEST(igt_wait_request),
 515                SUBTEST(igt_fence_wait),
 516                SUBTEST(igt_request_rewind),
 517                SUBTEST(mock_breadcrumbs_smoketest),
 518        };
 519        struct drm_i915_private *i915;
 520        intel_wakeref_t wakeref;
 521        int err = 0;
 522
 523        i915 = mock_gem_device();
 524        if (!i915)
 525                return -ENOMEM;
 526
 527        with_intel_runtime_pm(&i915->runtime_pm, wakeref)
 528                err = i915_subtests(tests, i915);
 529
 530        drm_dev_put(&i915->drm);
 531
 532        return err;
 533}
 534
 535static int live_nop_request(void *arg)
 536{
 537        struct drm_i915_private *i915 = arg;
 538        struct intel_engine_cs *engine;
 539        struct igt_live_test t;
 540        int err = -ENODEV;
 541
 542        /*
 543         * Submit various sized batches of empty requests, to each engine
 544         * (individually), and wait for the batch to complete. We can check
 545         * the overhead of submitting requests to the hardware.
 546         */
 547
 548        for_each_uabi_engine(engine, i915) {
 549                unsigned long n, prime;
 550                IGT_TIMEOUT(end_time);
 551                ktime_t times[2] = {};
 552
 553                err = igt_live_test_begin(&t, i915, __func__, engine->name);
 554                if (err)
 555                        return err;
 556
 557                intel_engine_pm_get(engine);
 558                for_each_prime_number_from(prime, 1, 8192) {
 559                        struct i915_request *request = NULL;
 560
 561                        times[1] = ktime_get_raw();
 562
 563                        for (n = 0; n < prime; n++) {
 564                                i915_request_put(request);
 565                                request = i915_request_create(engine->kernel_context);
 566                                if (IS_ERR(request))
 567                                        return PTR_ERR(request);
 568
 569                                /*
 570                                 * This space is left intentionally blank.
 571                                 *
 572                                 * We do not actually want to perform any
 573                                 * action with this request, we just want
 574                                 * to measure the latency in allocation
 575                                 * and submission of our breadcrumbs -
 576                                 * ensuring that the bare request is sufficient
 577                                 * for the system to work (i.e. proper HEAD
 578                                 * tracking of the rings, interrupt handling,
 579                                 * etc). It also gives us the lowest bounds
 580                                 * for latency.
 581                                 */
 582
 583                                i915_request_get(request);
 584                                i915_request_add(request);
 585                        }
 586                        i915_request_wait(request, 0, MAX_SCHEDULE_TIMEOUT);
 587                        i915_request_put(request);
 588
 589                        times[1] = ktime_sub(ktime_get_raw(), times[1]);
 590                        if (prime == 1)
 591                                times[0] = times[1];
 592
 593                        if (__igt_timeout(end_time, NULL))
 594                                break;
 595                }
 596                intel_engine_pm_put(engine);
 597
 598                err = igt_live_test_end(&t);
 599                if (err)
 600                        return err;
 601
 602                pr_info("Request latencies on %s: 1 = %lluns, %lu = %lluns\n",
 603                        engine->name,
 604                        ktime_to_ns(times[0]),
 605                        prime, div64_u64(ktime_to_ns(times[1]), prime));
 606        }
 607
 608        return err;
 609}
 610
 611static struct i915_vma *empty_batch(struct drm_i915_private *i915)
 612{
 613        struct drm_i915_gem_object *obj;
 614        struct i915_vma *vma;
 615        u32 *cmd;
 616        int err;
 617
 618        obj = i915_gem_object_create_internal(i915, PAGE_SIZE);
 619        if (IS_ERR(obj))
 620                return ERR_CAST(obj);
 621
 622        cmd = i915_gem_object_pin_map(obj, I915_MAP_WB);
 623        if (IS_ERR(cmd)) {
 624                err = PTR_ERR(cmd);
 625                goto err;
 626        }
 627
 628        *cmd = MI_BATCH_BUFFER_END;
 629
 630        __i915_gem_object_flush_map(obj, 0, 64);
 631        i915_gem_object_unpin_map(obj);
 632
 633        intel_gt_chipset_flush(&i915->gt);
 634
 635        vma = i915_vma_instance(obj, &i915->ggtt.vm, NULL);
 636        if (IS_ERR(vma)) {
 637                err = PTR_ERR(vma);
 638                goto err;
 639        }
 640
 641        err = i915_vma_pin(vma, 0, 0, PIN_USER | PIN_GLOBAL);
 642        if (err)
 643                goto err;
 644
 645        /* Force the wait wait now to avoid including it in the benchmark */
 646        err = i915_vma_sync(vma);
 647        if (err)
 648                goto err_pin;
 649
 650        return vma;
 651
 652err_pin:
 653        i915_vma_unpin(vma);
 654err:
 655        i915_gem_object_put(obj);
 656        return ERR_PTR(err);
 657}
 658
 659static struct i915_request *
 660empty_request(struct intel_engine_cs *engine,
 661              struct i915_vma *batch)
 662{
 663        struct i915_request *request;
 664        int err;
 665
 666        request = i915_request_create(engine->kernel_context);
 667        if (IS_ERR(request))
 668                return request;
 669
 670        err = engine->emit_bb_start(request,
 671                                    batch->node.start,
 672                                    batch->node.size,
 673                                    I915_DISPATCH_SECURE);
 674        if (err)
 675                goto out_request;
 676
 677        i915_request_get(request);
 678out_request:
 679        i915_request_add(request);
 680        return err ? ERR_PTR(err) : request;
 681}
 682
 683static int live_empty_request(void *arg)
 684{
 685        struct drm_i915_private *i915 = arg;
 686        struct intel_engine_cs *engine;
 687        struct igt_live_test t;
 688        struct i915_vma *batch;
 689        int err = 0;
 690
 691        /*
 692         * Submit various sized batches of empty requests, to each engine
 693         * (individually), and wait for the batch to complete. We can check
 694         * the overhead of submitting requests to the hardware.
 695         */
 696
 697        batch = empty_batch(i915);
 698        if (IS_ERR(batch))
 699                return PTR_ERR(batch);
 700
 701        for_each_uabi_engine(engine, i915) {
 702                IGT_TIMEOUT(end_time);
 703                struct i915_request *request;
 704                unsigned long n, prime;
 705                ktime_t times[2] = {};
 706
 707                err = igt_live_test_begin(&t, i915, __func__, engine->name);
 708                if (err)
 709                        goto out_batch;
 710
 711                intel_engine_pm_get(engine);
 712
 713                /* Warmup / preload */
 714                request = empty_request(engine, batch);
 715                if (IS_ERR(request)) {
 716                        err = PTR_ERR(request);
 717                        intel_engine_pm_put(engine);
 718                        goto out_batch;
 719                }
 720                i915_request_wait(request, 0, MAX_SCHEDULE_TIMEOUT);
 721
 722                for_each_prime_number_from(prime, 1, 8192) {
 723                        times[1] = ktime_get_raw();
 724
 725                        for (n = 0; n < prime; n++) {
 726                                i915_request_put(request);
 727                                request = empty_request(engine, batch);
 728                                if (IS_ERR(request)) {
 729                                        err = PTR_ERR(request);
 730                                        intel_engine_pm_put(engine);
 731                                        goto out_batch;
 732                                }
 733                        }
 734                        i915_request_wait(request, 0, MAX_SCHEDULE_TIMEOUT);
 735
 736                        times[1] = ktime_sub(ktime_get_raw(), times[1]);
 737                        if (prime == 1)
 738                                times[0] = times[1];
 739
 740                        if (__igt_timeout(end_time, NULL))
 741                                break;
 742                }
 743                i915_request_put(request);
 744                intel_engine_pm_put(engine);
 745
 746                err = igt_live_test_end(&t);
 747                if (err)
 748                        goto out_batch;
 749
 750                pr_info("Batch latencies on %s: 1 = %lluns, %lu = %lluns\n",
 751                        engine->name,
 752                        ktime_to_ns(times[0]),
 753                        prime, div64_u64(ktime_to_ns(times[1]), prime));
 754        }
 755
 756out_batch:
 757        i915_vma_unpin(batch);
 758        i915_vma_put(batch);
 759        return err;
 760}
 761
 762static struct i915_vma *recursive_batch(struct drm_i915_private *i915)
 763{
 764        struct drm_i915_gem_object *obj;
 765        const int gen = INTEL_GEN(i915);
 766        struct i915_vma *vma;
 767        u32 *cmd;
 768        int err;
 769
 770        obj = i915_gem_object_create_internal(i915, PAGE_SIZE);
 771        if (IS_ERR(obj))
 772                return ERR_CAST(obj);
 773
 774        vma = i915_vma_instance(obj, i915->gt.vm, NULL);
 775        if (IS_ERR(vma)) {
 776                err = PTR_ERR(vma);
 777                goto err;
 778        }
 779
 780        err = i915_vma_pin(vma, 0, 0, PIN_USER);
 781        if (err)
 782                goto err;
 783
 784        cmd = i915_gem_object_pin_map(obj, I915_MAP_WC);
 785        if (IS_ERR(cmd)) {
 786                err = PTR_ERR(cmd);
 787                goto err;
 788        }
 789
 790        if (gen >= 8) {
 791                *cmd++ = MI_BATCH_BUFFER_START | 1 << 8 | 1;
 792                *cmd++ = lower_32_bits(vma->node.start);
 793                *cmd++ = upper_32_bits(vma->node.start);
 794        } else if (gen >= 6) {
 795                *cmd++ = MI_BATCH_BUFFER_START | 1 << 8;
 796                *cmd++ = lower_32_bits(vma->node.start);
 797        } else {
 798                *cmd++ = MI_BATCH_BUFFER_START | MI_BATCH_GTT;
 799                *cmd++ = lower_32_bits(vma->node.start);
 800        }
 801        *cmd++ = MI_BATCH_BUFFER_END; /* terminate early in case of error */
 802
 803        __i915_gem_object_flush_map(obj, 0, 64);
 804        i915_gem_object_unpin_map(obj);
 805
 806        intel_gt_chipset_flush(&i915->gt);
 807
 808        return vma;
 809
 810err:
 811        i915_gem_object_put(obj);
 812        return ERR_PTR(err);
 813}
 814
 815static int recursive_batch_resolve(struct i915_vma *batch)
 816{
 817        u32 *cmd;
 818
 819        cmd = i915_gem_object_pin_map(batch->obj, I915_MAP_WC);
 820        if (IS_ERR(cmd))
 821                return PTR_ERR(cmd);
 822
 823        *cmd = MI_BATCH_BUFFER_END;
 824
 825        __i915_gem_object_flush_map(batch->obj, 0, sizeof(*cmd));
 826        i915_gem_object_unpin_map(batch->obj);
 827
 828        intel_gt_chipset_flush(batch->vm->gt);
 829
 830        return 0;
 831}
 832
 833static int live_all_engines(void *arg)
 834{
 835        struct drm_i915_private *i915 = arg;
 836        const unsigned int nengines = num_uabi_engines(i915);
 837        struct intel_engine_cs *engine;
 838        struct i915_request **request;
 839        struct igt_live_test t;
 840        struct i915_vma *batch;
 841        unsigned int idx;
 842        int err;
 843
 844        /*
 845         * Check we can submit requests to all engines simultaneously. We
 846         * send a recursive batch to each engine - checking that we don't
 847         * block doing so, and that they don't complete too soon.
 848         */
 849
 850        request = kcalloc(nengines, sizeof(*request), GFP_KERNEL);
 851        if (!request)
 852                return -ENOMEM;
 853
 854        err = igt_live_test_begin(&t, i915, __func__, "");
 855        if (err)
 856                goto out_free;
 857
 858        batch = recursive_batch(i915);
 859        if (IS_ERR(batch)) {
 860                err = PTR_ERR(batch);
 861                pr_err("%s: Unable to create batch, err=%d\n", __func__, err);
 862                goto out_free;
 863        }
 864
 865        idx = 0;
 866        for_each_uabi_engine(engine, i915) {
 867                request[idx] = intel_engine_create_kernel_request(engine);
 868                if (IS_ERR(request[idx])) {
 869                        err = PTR_ERR(request[idx]);
 870                        pr_err("%s: Request allocation failed with err=%d\n",
 871                               __func__, err);
 872                        goto out_request;
 873                }
 874
 875                i915_vma_lock(batch);
 876                err = i915_request_await_object(request[idx], batch->obj, 0);
 877                if (err == 0)
 878                        err = i915_vma_move_to_active(batch, request[idx], 0);
 879                i915_vma_unlock(batch);
 880                GEM_BUG_ON(err);
 881
 882                err = engine->emit_bb_start(request[idx],
 883                                            batch->node.start,
 884                                            batch->node.size,
 885                                            0);
 886                GEM_BUG_ON(err);
 887                request[idx]->batch = batch;
 888
 889                i915_request_get(request[idx]);
 890                i915_request_add(request[idx]);
 891                idx++;
 892        }
 893
 894        idx = 0;
 895        for_each_uabi_engine(engine, i915) {
 896                if (i915_request_completed(request[idx])) {
 897                        pr_err("%s(%s): request completed too early!\n",
 898                               __func__, engine->name);
 899                        err = -EINVAL;
 900                        goto out_request;
 901                }
 902                idx++;
 903        }
 904
 905        err = recursive_batch_resolve(batch);
 906        if (err) {
 907                pr_err("%s: failed to resolve batch, err=%d\n", __func__, err);
 908                goto out_request;
 909        }
 910
 911        idx = 0;
 912        for_each_uabi_engine(engine, i915) {
 913                long timeout;
 914
 915                timeout = i915_request_wait(request[idx], 0,
 916                                            MAX_SCHEDULE_TIMEOUT);
 917                if (timeout < 0) {
 918                        err = timeout;
 919                        pr_err("%s: error waiting for request on %s, err=%d\n",
 920                               __func__, engine->name, err);
 921                        goto out_request;
 922                }
 923
 924                GEM_BUG_ON(!i915_request_completed(request[idx]));
 925                i915_request_put(request[idx]);
 926                request[idx] = NULL;
 927                idx++;
 928        }
 929
 930        err = igt_live_test_end(&t);
 931
 932out_request:
 933        idx = 0;
 934        for_each_uabi_engine(engine, i915) {
 935                if (request[idx])
 936                        i915_request_put(request[idx]);
 937                idx++;
 938        }
 939        i915_vma_unpin(batch);
 940        i915_vma_put(batch);
 941out_free:
 942        kfree(request);
 943        return err;
 944}
 945
 946static int live_sequential_engines(void *arg)
 947{
 948        struct drm_i915_private *i915 = arg;
 949        const unsigned int nengines = num_uabi_engines(i915);
 950        struct i915_request **request;
 951        struct i915_request *prev = NULL;
 952        struct intel_engine_cs *engine;
 953        struct igt_live_test t;
 954        unsigned int idx;
 955        int err;
 956
 957        /*
 958         * Check we can submit requests to all engines sequentially, such
 959         * that each successive request waits for the earlier ones. This
 960         * tests that we don't execute requests out of order, even though
 961         * they are running on independent engines.
 962         */
 963
 964        request = kcalloc(nengines, sizeof(*request), GFP_KERNEL);
 965        if (!request)
 966                return -ENOMEM;
 967
 968        err = igt_live_test_begin(&t, i915, __func__, "");
 969        if (err)
 970                goto out_free;
 971
 972        idx = 0;
 973        for_each_uabi_engine(engine, i915) {
 974                struct i915_vma *batch;
 975
 976                batch = recursive_batch(i915);
 977                if (IS_ERR(batch)) {
 978                        err = PTR_ERR(batch);
 979                        pr_err("%s: Unable to create batch for %s, err=%d\n",
 980                               __func__, engine->name, err);
 981                        goto out_free;
 982                }
 983
 984                request[idx] = intel_engine_create_kernel_request(engine);
 985                if (IS_ERR(request[idx])) {
 986                        err = PTR_ERR(request[idx]);
 987                        pr_err("%s: Request allocation failed for %s with err=%d\n",
 988                               __func__, engine->name, err);
 989                        goto out_request;
 990                }
 991
 992                if (prev) {
 993                        err = i915_request_await_dma_fence(request[idx],
 994                                                           &prev->fence);
 995                        if (err) {
 996                                i915_request_add(request[idx]);
 997                                pr_err("%s: Request await failed for %s with err=%d\n",
 998                                       __func__, engine->name, err);
 999                                goto out_request;
1000                        }

1001                }
1002
1003                i915_vma_lock(batch);
1004                err = i915_request_await_object(request[idx],
1005                                                batch->obj, false);
1006                if (err == 0)
1007                        err = i915_vma_move_to_active(batch, request[idx], 0);
1008                i915_vma_unlock(batch);
1009                GEM_BUG_ON(err);
1010
1011                err = engine->emit_bb_start(request[idx],
1012                                            batch->node.start,
1013                                            batch->node.size,
1014                                            0);
1015                GEM_BUG_ON(err);
1016                request[idx]->batch = batch;
1017
1018                i915_request_get(request[idx]);
1019                i915_request_add(request[idx]);
1020
1021                prev = request[idx];
1022                idx++;
1023        }
1024
1025        idx = 0;
1026        for_each_uabi_engine(engine, i915) {
1027                long timeout;
1028
1029                if (i915_request_completed(request[idx])) {
1030                        pr_err("%s(%s): request completed too early!\n",
1031                               __func__, engine->name);
1032                        err = -EINVAL;
1033                        goto out_request;
1034                }
1035
1036                err = recursive_batch_resolve(request[idx]->batch);
1037                if (err) {
1038                        pr_err("%s: failed to resolve batch, err=%d\n",
1039                               __func__, err);
1040                        goto out_request;
1041                }
1042
1043                timeout = i915_request_wait(request[idx], 0,
1044                                            MAX_SCHEDULE_TIMEOUT);
1045                if (timeout < 0) {
1046                        err = timeout;
1047                        pr_err("%s: error waiting for request on %s, err=%d\n",
1048                               __func__, engine->name, err);
1049                        goto out_request;
1050                }
1051
1052                GEM_BUG_ON(!i915_request_completed(request[idx]));
1053                idx++;
1054        }
1055
1056        err = igt_live_test_end(&t);
1057
1058out_request:
1059        idx = 0;
1060        for_each_uabi_engine(engine, i915) {
1061                u32 *cmd;
1062
1063                if (!request[idx])
1064                        break;
1065
1066                cmd = i915_gem_object_pin_map(request[idx]->batch->obj,
1067                                              I915_MAP_WC);
1068                if (!IS_ERR(cmd)) {
1069                        *cmd = MI_BATCH_BUFFER_END;
1070
1071                        __i915_gem_object_flush_map(request[idx]->batch->obj,
1072                                                    0, sizeof(*cmd));
1073                        i915_gem_object_unpin_map(request[idx]->batch->obj);
1074
1075                        intel_gt_chipset_flush(engine->gt);
1076                }
1077
1078                i915_vma_put(request[idx]->batch);
1079                i915_request_put(request[idx]);
1080                idx++;
1081        }
1082out_free:
1083        kfree(request);
1084        return err;
1085}
1086
1087static int __live_parallel_engine1(void *arg)
1088{
1089        struct intel_engine_cs *engine = arg;
1090        IGT_TIMEOUT(end_time);
1091        unsigned long count;
1092        int err = 0;
1093
1094        count = 0;
1095        intel_engine_pm_get(engine);
1096        do {
1097                struct i915_request *rq;
1098
1099                rq = i915_request_create(engine->kernel_context);
1100                if (IS_ERR(rq)) {
1101                        err = PTR_ERR(rq);
1102                        break;
1103                }
1104
1105                i915_request_get(rq);
1106                i915_request_add(rq);
1107
1108                err = 0;
1109                if (i915_request_wait(rq, 0, HZ / 5) < 0)
1110                        err = -ETIME;
1111                i915_request_put(rq);
1112                if (err)
1113                        break;
1114
1115                count++;
1116        } while (!__igt_timeout(end_time, NULL));
1117        intel_engine_pm_put(engine);
1118
1119        pr_info("%s: %lu request + sync\n", engine->name, count);
1120        return err;
1121}
1122
1123static int __live_parallel_engineN(void *arg)
1124{
1125        struct intel_engine_cs *engine = arg;
1126        IGT_TIMEOUT(end_time);
1127        unsigned long count;
1128        int err = 0;
1129
1130        count = 0;
1131        intel_engine_pm_get(engine);
1132        do {
1133                struct i915_request *rq;
1134
1135                rq = i915_request_create(engine->kernel_context);
1136                if (IS_ERR(rq)) {
1137                        err = PTR_ERR(rq);
1138                        break;
1139                }
1140
1141                i915_request_add(rq);
1142                count++;
1143        } while (!__igt_timeout(end_time, NULL));
1144        intel_engine_pm_put(engine);
1145
1146        pr_info("%s: %lu requests\n", engine->name, count);
1147        return err;
1148}
1149
1150static bool wake_all(struct drm_i915_private *i915)
1151{
1152        if (atomic_dec_and_test(&i915->selftest.counter)) {
1153                wake_up_var(&i915->selftest.counter);
1154                return true;
1155        }
1156
1157        return false;
1158}
1159
1160static int wait_for_all(struct drm_i915_private *i915)
1161{
1162        if (wake_all(i915))
1163                return 0;
1164
1165        if (wait_var_event_timeout(&i915->selftest.counter,
1166                                   !atomic_read(&i915->selftest.counter),
1167                                   i915_selftest.timeout_jiffies))
1168                return 0;
1169
1170        return -ETIME;
1171}
1172
1173static int __live_parallel_spin(void *arg)
1174{
1175        struct intel_engine_cs *engine = arg;
1176        struct igt_spinner spin;
1177        struct i915_request *rq;
1178        int err = 0;
1179
1180        /*
1181         * Create a spinner running for eternity on each engine. If a second
1182         * spinner is incorrectly placed on the same engine, it will not be
1183         * able to start in time.
1184         */
1185
1186        if (igt_spinner_init(&spin, engine->gt)) {
1187                wake_all(engine->i915);
1188                return -ENOMEM;
1189        }
1190
1191        intel_engine_pm_get(engine);
1192        rq = igt_spinner_create_request(&spin,
1193                                        engine->kernel_context,
1194                                        MI_NOOP); /* no preemption */
1195        intel_engine_pm_put(engine);
1196        if (IS_ERR(rq)) {
1197                err = PTR_ERR(rq);
1198                if (err == -ENODEV)
1199                        err = 0;
1200                wake_all(engine->i915);
1201                goto out_spin;
1202        }
1203
1204        i915_request_get(rq);
1205        i915_request_add(rq);
1206        if (igt_wait_for_spinner(&spin, rq)) {
1207                /* Occupy this engine for the whole test */
1208                err = wait_for_all(engine->i915);
1209        } else {
1210                pr_err("Failed to start spinner on %s\n", engine->name);
1211                err = -EINVAL;
1212        }
1213        igt_spinner_end(&spin);
1214
1215        if (err == 0 && i915_request_wait(rq, 0, HZ / 5) < 0)
1216                err = -EIO;
1217        i915_request_put(rq);
1218
1219out_spin:
1220        igt_spinner_fini(&spin);
1221        return err;
1222}
1223
1224static int live_parallel_engines(void *arg)
1225{
1226        struct drm_i915_private *i915 = arg;
1227        static int (* const func[])(void *arg) = {
1228                __live_parallel_engine1,
1229                __live_parallel_engineN,
1230                __live_parallel_spin,
1231                NULL,
1232        };
1233        const unsigned int nengines = num_uabi_engines(i915);
1234        struct intel_engine_cs *engine;
1235        int (* const *fn)(void *arg);
1236        struct task_struct **tsk;
1237        int err = 0;
1238
1239        /*
1240         * Check we can submit requests to all engines concurrently. This
1241         * tests that we load up the system maximally.
1242         */
1243
1244        tsk = kcalloc(nengines, sizeof(*tsk), GFP_KERNEL);
1245        if (!tsk)
1246                return -ENOMEM;
1247
1248        for (fn = func; !err && *fn; fn++) {
1249                char name[KSYM_NAME_LEN];
1250                struct igt_live_test t;
1251                unsigned int idx;
1252
1253                snprintf(name, sizeof(name), "%ps", *fn);
1254                err = igt_live_test_begin(&t, i915, __func__, name);
1255                if (err)
1256                        break;
1257
1258                atomic_set(&i915->selftest.counter, nengines);
1259
1260                idx = 0;
1261                for_each_uabi_engine(engine, i915) {
1262                        tsk[idx] = kthread_run(*fn, engine,
1263                                               "igt/parallel:%s",
1264                                               engine->name);
1265                        if (IS_ERR(tsk[idx])) {
1266                                err = PTR_ERR(tsk[idx]);
1267                                break;
1268                        }
1269                        get_task_struct(tsk[idx++]);
1270                }
1271
1272                yield(); /* start all threads before we kthread_stop() */
1273
1274                idx = 0;
1275                for_each_uabi_engine(engine, i915) {
1276                        int status;
1277
1278                        if (IS_ERR(tsk[idx]))
1279                                break;
1280
1281                        status = kthread_stop(tsk[idx]);
1282                        if (status && !err)
1283                                err = status;
1284
1285                        put_task_struct(tsk[idx++]);
1286                }
1287
1288                if (igt_live_test_end(&t))
1289                        err = -EIO;
1290        }
1291
1292        kfree(tsk);
1293        return err;
1294}
1295
1296static int
1297max_batches(struct i915_gem_context *ctx, struct intel_engine_cs *engine)
1298{
1299        struct i915_request *rq;
1300        int ret;
1301
1302        /*
1303         * Before execlists, all contexts share the same ringbuffer. With
1304         * execlists, each context/engine has a separate ringbuffer and
1305         * for the purposes of this test, inexhaustible.
1306         *
1307         * For the global ringbuffer though, we have to be very careful
1308         * that we do not wrap while preventing the execution of requests
1309         * with a unsignaled fence.
1310         */
1311        if (HAS_EXECLISTS(ctx->i915))
1312                return INT_MAX;
1313
1314        rq = igt_request_alloc(ctx, engine);
1315        if (IS_ERR(rq)) {
1316                ret = PTR_ERR(rq);
1317        } else {
1318                int sz;
1319
1320                ret = rq->ring->size - rq->reserved_space;
1321                i915_request_add(rq);
1322
1323                sz = rq->ring->emit - rq->head;
1324                if (sz < 0)
1325                        sz += rq->ring->size;
1326                ret /= sz;
1327                ret /= 2; /* leave half spare, in case of emergency! */
1328        }
1329
1330        return ret;
1331}
1332
1333static int live_breadcrumbs_smoketest(void *arg)
1334{
1335        struct drm_i915_private *i915 = arg;
1336        const unsigned int nengines = num_uabi_engines(i915);
1337        const unsigned int ncpus = num_online_cpus();
1338        unsigned long num_waits, num_fences;
1339        struct intel_engine_cs *engine;
1340        struct task_struct **threads;
1341        struct igt_live_test live;
1342        intel_wakeref_t wakeref;
1343        struct smoketest *smoke;
1344        unsigned int n, idx;
1345        struct file *file;
1346        int ret = 0;
1347
1348        /*
1349         * Smoketest our breadcrumb/signal handling for requests across multiple
1350         * threads. A very simple test to only catch the most egregious of bugs.
1351         * See __igt_breadcrumbs_smoketest();
1352         *
1353         * On real hardware this time.
1354         */
1355
1356        wakeref = intel_runtime_pm_get(&i915->runtime_pm);
1357
1358        file = mock_file(i915);
1359        if (IS_ERR(file)) {
1360                ret = PTR_ERR(file);
1361                goto out_rpm;
1362        }
1363
1364        smoke = kcalloc(nengines, sizeof(*smoke), GFP_KERNEL);
1365        if (!smoke) {
1366                ret = -ENOMEM;
1367                goto out_file;
1368        }
1369
1370        threads = kcalloc(ncpus * nengines, sizeof(*threads), GFP_KERNEL);
1371        if (!threads) {
1372                ret = -ENOMEM;
1373                goto out_smoke;
1374        }
1375
1376        smoke[0].request_alloc = __live_request_alloc;
1377        smoke[0].ncontexts = 64;
1378        smoke[0].contexts = kcalloc(smoke[0].ncontexts,
1379                                    sizeof(*smoke[0].contexts),
1380                                    GFP_KERNEL);
1381        if (!smoke[0].contexts) {
1382                ret = -ENOMEM;
1383                goto out_threads;
1384        }
1385
1386        for (n = 0; n < smoke[0].ncontexts; n++) {
1387                smoke[0].contexts[n] = live_context(i915, file);
1388                if (!smoke[0].contexts[n]) {
1389                        ret = -ENOMEM;
1390                        goto out_contexts;
1391                }
1392        }
1393
1394        ret = igt_live_test_begin(&live, i915, __func__, "");
1395        if (ret)
1396                goto out_contexts;
1397
1398        idx = 0;
1399        for_each_uabi_engine(engine, i915) {
1400                smoke[idx] = smoke[0];
1401                smoke[idx].engine = engine;
1402                smoke[idx].max_batch =
1403                        max_batches(smoke[0].contexts[0], engine);
1404                if (smoke[idx].max_batch < 0) {
1405                        ret = smoke[idx].max_batch;
1406                        goto out_flush;
1407                }
1408                /* One ring interleaved between requests from all cpus */
1409                smoke[idx].max_batch /= num_online_cpus() + 1;
1410                pr_debug("Limiting batches to %d requests on %s\n",
1411                         smoke[idx].max_batch, engine->name);
1412
1413                for (n = 0; n < ncpus; n++) {
1414                        struct task_struct *tsk;
1415
1416                        tsk = kthread_run(__igt_breadcrumbs_smoketest,
1417                                          &smoke[idx], "igt/%d.%d", idx, n);
1418                        if (IS_ERR(tsk)) {
1419                                ret = PTR_ERR(tsk);
1420                                goto out_flush;
1421                        }
1422
1423                        get_task_struct(tsk);
1424                        threads[idx * ncpus + n] = tsk;
1425                }
1426
1427                idx++;
1428        }
1429
1430        yield(); /* start all threads before we begin */
1431        msleep(jiffies_to_msecs(i915_selftest.timeout_jiffies));
1432
1433out_flush:
1434        idx = 0;
1435        num_waits = 0;
1436        num_fences = 0;
1437        for_each_uabi_engine(engine, i915) {
1438                for (n = 0; n < ncpus; n++) {
1439                        struct task_struct *tsk = threads[idx * ncpus + n];
1440                        int err;
1441
1442                        if (!tsk)
1443                                continue;
1444
1445                        err = kthread_stop(tsk);
1446                        if (err < 0 && !ret)
1447                                ret = err;
1448
1449                        put_task_struct(tsk);
1450                }
1451
1452                num_waits += atomic_long_read(&smoke[idx].num_waits);
1453                num_fences += atomic_long_read(&smoke[idx].num_fences);
1454                idx++;
1455        }
1456        pr_info("Completed %lu waits for %lu fences across %d engines and %d cpus\n",
1457                num_waits, num_fences, idx, ncpus);
1458
1459        ret = igt_live_test_end(&live) ?: ret;
1460out_contexts:
1461        kfree(smoke[0].contexts);
1462out_threads:
1463        kfree(threads);
1464out_smoke:
1465        kfree(smoke);
1466out_file:
1467        fput(file);
1468out_rpm:
1469        intel_runtime_pm_put(&i915->runtime_pm, wakeref);
1470
1471        return ret;
1472}
1473
1474int i915_request_live_selftests(struct drm_i915_private *i915)
1475{
1476        static const struct i915_subtest tests[] = {
1477                SUBTEST(live_nop_request),
1478                SUBTEST(live_all_engines),
1479                SUBTEST(live_sequential_engines),
1480                SUBTEST(live_parallel_engines),
1481                SUBTEST(live_empty_request),
1482                SUBTEST(live_breadcrumbs_smoketest),
1483        };
1484
1485        if (intel_gt_is_wedged(&i915->gt))
1486                return 0;
1487
1488        return i915_subtests(tests, i915);
1489}
1490
1491static int switch_to_kernel_sync(struct intel_context *ce, int err)
1492{
1493        struct i915_request *rq;
1494        struct dma_fence *fence;
1495
1496        rq = intel_engine_create_kernel_request(ce->engine);
1497        if (IS_ERR(rq))
1498                return PTR_ERR(rq);
1499
1500        fence = i915_active_fence_get(&ce->timeline->last_request);
1501        if (fence) {
1502                i915_request_await_dma_fence(rq, fence);
1503                dma_fence_put(fence);
1504        }
1505
1506        rq = i915_request_get(rq);
1507        i915_request_add(rq);
1508        if (i915_request_wait(rq, 0, HZ / 2) < 0 && !err)
1509                err = -ETIME;
1510        i915_request_put(rq);
1511
1512        while (!err && !intel_engine_is_idle(ce->engine))
1513                intel_engine_flush_submission(ce->engine);
1514
1515        return err;
1516}
1517
1518struct perf_stats {
1519        struct intel_engine_cs *engine;
1520        unsigned long count;
1521        ktime_t time;
1522        ktime_t busy;
1523        u64 runtime;
1524};
1525
1526struct perf_series {
1527        struct drm_i915_private *i915;
1528        unsigned int nengines;
1529        struct intel_context *ce[];
1530};
1531
1532static int cmp_u32(const void *A, const void *B)
1533{
1534        const u32 *a = A, *b = B;
1535
1536        return *a - *b;
1537}
1538
1539static u32 trifilter(u32 *a)
1540{
1541        u64 sum;
1542
1543#define TF_COUNT 5
1544        sort(a, TF_COUNT, sizeof(*a), cmp_u32, NULL);
1545
1546        sum = mul_u32_u32(a[2], 2);
1547        sum += a[1];
1548        sum += a[3];
1549
1550        GEM_BUG_ON(sum > U32_MAX);
1551        return sum;
1552#define TF_BIAS 2
1553}
1554
1555static u64 cycles_to_ns(struct intel_engine_cs *engine, u32 cycles)
1556{
1557        u64 ns = i915_cs_timestamp_ticks_to_ns(engine->i915, cycles);
1558
1559        return DIV_ROUND_CLOSEST(ns, 1 << TF_BIAS);
1560}
1561
1562static u32 *emit_timestamp_store(u32 *cs, struct intel_context *ce, u32 offset)
1563{
1564        *cs++ = MI_STORE_REGISTER_MEM_GEN8 | MI_USE_GGTT;
1565        *cs++ = i915_mmio_reg_offset(RING_TIMESTAMP((ce->engine->mmio_base)));
1566        *cs++ = offset;
1567        *cs++ = 0;
1568
1569        return cs;
1570}
1571
1572static u32 *emit_store_dw(u32 *cs, u32 offset, u32 value)
1573{
1574        *cs++ = MI_STORE_DWORD_IMM_GEN4 | MI_USE_GGTT;
1575        *cs++ = offset;
1576        *cs++ = 0;
1577        *cs++ = value;
1578
1579        return cs;
1580}
1581
1582static u32 *emit_semaphore_poll(u32 *cs, u32 mode, u32 value, u32 offset)
1583{
1584        *cs++ = MI_SEMAPHORE_WAIT |
1585                MI_SEMAPHORE_GLOBAL_GTT |
1586                MI_SEMAPHORE_POLL |
1587                mode;
1588        *cs++ = value;
1589        *cs++ = offset;
1590        *cs++ = 0;
1591
1592        return cs;
1593}
1594
1595static u32 *emit_semaphore_poll_until(u32 *cs, u32 offset, u32 value)
1596{
1597        return emit_semaphore_poll(cs, MI_SEMAPHORE_SAD_EQ_SDD, value, offset);
1598}
1599
1600static void semaphore_set(u32 *sema, u32 value)
1601{
1602        WRITE_ONCE(*sema, value);
1603        wmb(); /* flush the update to the cache, and beyond */
1604}
1605
1606static u32 *hwsp_scratch(const struct intel_context *ce)
1607{
1608        return memset32(ce->engine->status_page.addr + 1000, 0, 21);
1609}
1610
1611static u32 hwsp_offset(const struct intel_context *ce, u32 *dw)
1612{
1613        return (i915_ggtt_offset(ce->engine->status_page.vma) +
1614                offset_in_page(dw));
1615}
1616
1617static int measure_semaphore_response(struct intel_context *ce)
1618{
1619        u32 *sema = hwsp_scratch(ce);
1620        const u32 offset = hwsp_offset(ce, sema);
1621        u32 elapsed[TF_COUNT], cycles;
1622        struct i915_request *rq;
1623        u32 *cs;
1624        int err;
1625        int i;
1626
1627        /*
1628         * Measure how many cycles it takes for the HW to detect the change
1629         * in a semaphore value.
1630         *
1631         *    A: read CS_TIMESTAMP from CPU
1632         *    poke semaphore
1633         *    B: read CS_TIMESTAMP on GPU
1634         *
1635         * Semaphore latency: B - A
1636         */
1637
1638        semaphore_set(sema, -1);
1639
1640        rq = i915_request_create(ce);
1641        if (IS_ERR(rq))
1642                return PTR_ERR(rq);
1643
1644        cs = intel_ring_begin(rq, 4 + 12 * ARRAY_SIZE(elapsed));
1645        if (IS_ERR(cs)) {
1646                i915_request_add(rq);
1647                err = PTR_ERR(cs);
1648                goto err;
1649        }
1650
1651        cs = emit_store_dw(cs, offset, 0);
1652        for (i = 1; i <= ARRAY_SIZE(elapsed); i++) {
1653                cs = emit_semaphore_poll_until(cs, offset, i);
1654                cs = emit_timestamp_store(cs, ce, offset + i * sizeof(u32));
1655                cs = emit_store_dw(cs, offset, 0);
1656        }
1657
1658        intel_ring_advance(rq, cs);
1659        i915_request_add(rq);
1660
1661        if (wait_for(READ_ONCE(*sema) == 0, 50)) {
1662                err = -EIO;
1663                goto err;
1664        }
1665
1666        for (i = 1; i <= ARRAY_SIZE(elapsed); i++) {
1667                preempt_disable();
1668                cycles = ENGINE_READ_FW(ce->engine, RING_TIMESTAMP);
1669                semaphore_set(sema, i);
1670                preempt_enable();
1671
1672                if (wait_for(READ_ONCE(*sema) == 0, 50)) {
1673                        err = -EIO;
1674                        goto err;
1675                }
1676
1677                elapsed[i - 1] = sema[i] - cycles;
1678        }
1679
1680        cycles = trifilter(elapsed);
1681        pr_info("%s: semaphore response %d cycles, %lluns\n",
1682                ce->engine->name, cycles >> TF_BIAS,
1683                cycles_to_ns(ce->engine, cycles));
1684
1685        return intel_gt_wait_for_idle(ce->engine->gt, HZ);
1686
1687err:
1688        intel_gt_set_wedged(ce->engine->gt);
1689        return err;
1690}
1691
1692static int measure_idle_dispatch(struct intel_context *ce)
1693{
1694        u32 *sema = hwsp_scratch(ce);
1695        const u32 offset = hwsp_offset(ce, sema);
1696        u32 elapsed[TF_COUNT], cycles;
1697        u32 *cs;
1698        int err;
1699        int i;
1700
1701        /*
1702         * Measure how long it takes for us to submit a request while the
1703         * engine is idle, but is resting in our context.
1704         *
1705         *    A: read CS_TIMESTAMP from CPU
1706         *    submit request
1707         *    B: read CS_TIMESTAMP on GPU
1708         *
1709         * Submission latency: B - A
1710         */
1711
1712        for (i = 0; i < ARRAY_SIZE(elapsed); i++) {
1713                struct i915_request *rq;
1714
1715                err = intel_gt_wait_for_idle(ce->engine->gt, HZ / 2);
1716                if (err)
1717                        return err;
1718
1719                rq = i915_request_create(ce);
1720                if (IS_ERR(rq)) {
1721                        err = PTR_ERR(rq);
1722                        goto err;
1723                }
1724
1725                cs = intel_ring_begin(rq, 4);
1726                if (IS_ERR(cs)) {
1727                        i915_request_add(rq);
1728                        err = PTR_ERR(cs);
1729                        goto err;
1730                }
1731
1732                cs = emit_timestamp_store(cs, ce, offset + i * sizeof(u32));
1733
1734                intel_ring_advance(rq, cs);
1735
1736                preempt_disable();
1737                local_bh_disable();
1738                elapsed[i] = ENGINE_READ_FW(ce->engine, RING_TIMESTAMP);
1739                i915_request_add(rq);
1740                local_bh_enable();
1741                preempt_enable();
1742        }
1743
1744        err = intel_gt_wait_for_idle(ce->engine->gt, HZ / 2);
1745        if (err)
1746                goto err;
1747
1748        for (i = 0; i < ARRAY_SIZE(elapsed); i++)
1749                elapsed[i] = sema[i] - elapsed[i];
1750
1751        cycles = trifilter(elapsed);
1752        pr_info("%s: idle dispatch latency %d cycles, %lluns\n",
1753                ce->engine->name, cycles >> TF_BIAS,
1754                cycles_to_ns(ce->engine, cycles));
1755
1756        return intel_gt_wait_for_idle(ce->engine->gt, HZ);
1757
1758err:
1759        intel_gt_set_wedged(ce->engine->gt);
1760        return err;
1761}
1762
1763static int measure_busy_dispatch(struct intel_context *ce)
1764{
1765        u32 *sema = hwsp_scratch(ce);
1766        const u32 offset = hwsp_offset(ce, sema);
1767        u32 elapsed[TF_COUNT + 1], cycles;
1768        u32 *cs;
1769        int err;
1770        int i;
1771
1772        /*
1773         * Measure how long it takes for us to submit a request while the
1774         * engine is busy, polling on a semaphore in our context. With
1775         * direct submission, this will include the cost of a lite restore.
1776         *
1777         *    A: read CS_TIMESTAMP from CPU
1778         *    submit request
1779         *    B: read CS_TIMESTAMP on GPU
1780         *
1781         * Submission latency: B - A
1782         */
1783
1784        for (i = 1; i <= ARRAY_SIZE(elapsed); i++) {
1785                struct i915_request *rq;
1786
1787                rq = i915_request_create(ce);
1788                if (IS_ERR(rq)) {
1789                        err = PTR_ERR(rq);
1790                        goto err;
1791                }
1792
1793                cs = intel_ring_begin(rq, 12);
1794                if (IS_ERR(cs)) {
1795                        i915_request_add(rq);
1796                        err = PTR_ERR(cs);
1797                        goto err;
1798                }
1799
1800                cs = emit_store_dw(cs, offset + i * sizeof(u32), -1);
1801                cs = emit_semaphore_poll_until(cs, offset, i);
1802                cs = emit_timestamp_store(cs, ce, offset + i * sizeof(u32));
1803
1804                intel_ring_advance(rq, cs);
1805
1806                if (i > 1 && wait_for(READ_ONCE(sema[i - 1]), 500)) {
1807                        err = -EIO;
1808                        goto err;
1809                }
1810
1811                preempt_disable();
1812                local_bh_disable();
1813                elapsed[i - 1] = ENGINE_READ_FW(ce->engine, RING_TIMESTAMP);
1814                i915_request_add(rq);
1815                local_bh_enable();
1816                semaphore_set(sema, i - 1);
1817                preempt_enable();
1818        }
1819
1820        wait_for(READ_ONCE(sema[i - 1]), 500);
1821        semaphore_set(sema, i - 1);
1822
1823        for (i = 1; i <= TF_COUNT; i++) {
1824                GEM_BUG_ON(sema[i] == -1);
1825                elapsed[i - 1] = sema[i] - elapsed[i];
1826        }
1827
1828        cycles = trifilter(elapsed);
1829        pr_info("%s: busy dispatch latency %d cycles, %lluns\n",
1830                ce->engine->name, cycles >> TF_BIAS,
1831                cycles_to_ns(ce->engine, cycles));
1832
1833        return intel_gt_wait_for_idle(ce->engine->gt, HZ);
1834
1835err:
1836        intel_gt_set_wedged(ce->engine->gt);
1837        return err;
1838}
1839
1840static int plug(struct intel_engine_cs *engine, u32 *sema, u32 mode, int value)
1841{
1842        const u32 offset =
1843                i915_ggtt_offset(engine->status_page.vma) +
1844                offset_in_page(sema);
1845        struct i915_request *rq;
1846        u32 *cs;
1847
1848        rq = i915_request_create(engine->kernel_context);
1849        if (IS_ERR(rq))
1850                return PTR_ERR(rq);
1851
1852        cs = intel_ring_begin(rq, 4);
1853        if (IS_ERR(cs)) {
1854                i915_request_add(rq);
1855                return PTR_ERR(cs);
1856        }
1857
1858        cs = emit_semaphore_poll(cs, mode, value, offset);
1859
1860        intel_ring_advance(rq, cs);
1861        i915_request_add(rq);
1862
1863        return 0;
1864}
1865
1866static int measure_inter_request(struct intel_context *ce)
1867{
1868        u32 *sema = hwsp_scratch(ce);
1869        const u32 offset = hwsp_offset(ce, sema);
1870        u32 elapsed[TF_COUNT + 1], cycles;
1871        struct i915_sw_fence *submit;
1872        int i, err;
1873
1874        /*
1875         * Measure how long it takes to advance from one request into the
1876         * next. Between each request we flush the GPU caches to memory,
1877         * update the breadcrumbs, and then invalidate those caches.
1878         * We queue up all the requests to be submitted in one batch so
1879         * it should be one set of contiguous measurements.
1880         *
1881         *    A: read CS_TIMESTAMP on GPU
1882         *    advance request
1883         *    B: read CS_TIMESTAMP on GPU
1884         *
1885         * Request latency: B - A
1886         */
1887
1888        err = plug(ce->engine, sema, MI_SEMAPHORE_SAD_NEQ_SDD, 0);
1889        if (err)
1890                return err;
1891
1892        submit = heap_fence_create(GFP_KERNEL);
1893        if (!submit) {
1894                semaphore_set(sema, 1);
1895                return -ENOMEM;
1896        }
1897
1898        intel_engine_flush_submission(ce->engine);
1899        for (i = 1; i <= ARRAY_SIZE(elapsed); i++) {
1900                struct i915_request *rq;
1901                u32 *cs;
1902
1903                rq = i915_request_create(ce);
1904                if (IS_ERR(rq)) {
1905                        err = PTR_ERR(rq);
1906                        goto err_submit;
1907                }
1908
1909                err = i915_sw_fence_await_sw_fence_gfp(&rq->submit,
1910                                                       submit,
1911                                                       GFP_KERNEL);
1912                if (err < 0) {
1913                        i915_request_add(rq);
1914                        goto err_submit;
1915                }
1916
1917                cs = intel_ring_begin(rq, 4);
1918                if (IS_ERR(cs)) {
1919                        i915_request_add(rq);
1920                        err = PTR_ERR(cs);
1921                        goto err_submit;
1922                }
1923
1924                cs = emit_timestamp_store(cs, ce, offset + i * sizeof(u32));
1925
1926                intel_ring_advance(rq, cs);
1927                i915_request_add(rq);
1928        }
1929        local_bh_disable();
1930        i915_sw_fence_commit(submit);
1931        local_bh_enable();
1932        intel_engine_flush_submission(ce->engine);
1933        heap_fence_put(submit);
1934
1935        semaphore_set(sema, 1);
1936        err = intel_gt_wait_for_idle(ce->engine->gt, HZ / 2);
1937        if (err)
1938                goto err;
1939
1940        for (i = 1; i <= TF_COUNT; i++)
1941                elapsed[i - 1] = sema[i + 1] - sema[i];
1942
1943        cycles = trifilter(elapsed);
1944        pr_info("%s: inter-request latency %d cycles, %lluns\n",
1945                ce->engine->name, cycles >> TF_BIAS,
1946                cycles_to_ns(ce->engine, cycles));
1947
1948        return intel_gt_wait_for_idle(ce->engine->gt, HZ);
1949
1950err_submit:
1951        i915_sw_fence_commit(submit);
1952        heap_fence_put(submit);
1953        semaphore_set(sema, 1);
1954err:
1955        intel_gt_set_wedged(ce->engine->gt);
1956        return err;
1957}
1958
1959static int measure_context_switch(struct intel_context *ce)
1960{
1961        u32 *sema = hwsp_scratch(ce);
1962        const u32 offset = hwsp_offset(ce, sema);
1963        struct i915_request *fence = NULL;
1964        u32 elapsed[TF_COUNT + 1], cycles;
1965        int i, j, err;
1966        u32 *cs;
1967
1968        /*
1969         * Measure how long it takes to advance from one request in one
1970         * context to a request in another context. This allows us to
1971         * measure how long the context save/restore take, along with all
1972         * the inter-context setup we require.
1973         *
1974         *    A: read CS_TIMESTAMP on GPU
1975         *    switch context
1976         *    B: read CS_TIMESTAMP on GPU
1977         *
1978         * Context switch latency: B - A
1979         */
1980
1981        err = plug(ce->engine, sema, MI_SEMAPHORE_SAD_NEQ_SDD, 0);
1982        if (err)
1983                return err;
1984
1985        for (i = 1; i <= ARRAY_SIZE(elapsed); i++) {
1986                struct intel_context *arr[] = {
1987                        ce, ce->engine->kernel_context
1988                };
1989                u32 addr = offset + ARRAY_SIZE(arr) * i * sizeof(u32);
1990
1991                for (j = 0; j < ARRAY_SIZE(arr); j++) {
1992                        struct i915_request *rq;
1993
1994                        rq = i915_request_create(arr[j]);
1995                        if (IS_ERR(rq)) {
1996                                err = PTR_ERR(rq);
1997                                goto err_fence;
1998                        }
1999
2000                        if (fence) {

2001                                err = i915_request_await_dma_fence(rq,
2002                                                                   &fence->fence);
2003                                if (err) {
2004                                        i915_request_add(rq);
2005                                        goto err_fence;
2006                                }
2007                        }
2008
2009                        cs = intel_ring_begin(rq, 4);
2010                        if (IS_ERR(cs)) {
2011                                i915_request_add(rq);
2012                                err = PTR_ERR(cs);
2013                                goto err_fence;
2014                        }
2015
2016                        cs = emit_timestamp_store(cs, ce, addr);
2017                        addr += sizeof(u32);
2018
2019                        intel_ring_advance(rq, cs);
2020
2021                        i915_request_put(fence);
2022                        fence = i915_request_get(rq);
2023
2024                        i915_request_add(rq);
2025                }
2026        }
2027        i915_request_put(fence);
2028        intel_engine_flush_submission(ce->engine);
2029
2030        semaphore_set(sema, 1);
2031        err = intel_gt_wait_for_idle(ce->engine->gt, HZ / 2);
2032        if (err)
2033                goto err;
2034
2035        for (i = 1; i <= TF_COUNT; i++)
2036                elapsed[i - 1] = sema[2 * i + 2] - sema[2 * i + 1];
2037
2038        cycles = trifilter(elapsed);
2039        pr_info("%s: context switch latency %d cycles, %lluns\n",
2040                ce->engine->name, cycles >> TF_BIAS,
2041                cycles_to_ns(ce->engine, cycles));
2042
2043        return intel_gt_wait_for_idle(ce->engine->gt, HZ);
2044
2045err_fence:
2046        i915_request_put(fence);
2047        semaphore_set(sema, 1);
2048err:
2049        intel_gt_set_wedged(ce->engine->gt);
2050        return err;
2051}
2052
2053static int measure_preemption(struct intel_context *ce)
2054{
2055        u32 *sema = hwsp_scratch(ce);
2056        const u32 offset = hwsp_offset(ce, sema);
2057        u32 elapsed[TF_COUNT], cycles;
2058        u32 *cs;
2059        int err;
2060        int i;
2061
2062        /*
2063         * We measure two latencies while triggering preemption. The first
2064         * latency is how long it takes for us to submit a preempting request.
2065         * The second latency is how it takes for us to return from the
2066         * preemption back to the original context.
2067         *
2068         *    A: read CS_TIMESTAMP from CPU
2069         *    submit preemption
2070         *    B: read CS_TIMESTAMP on GPU (in preempting context)
2071         *    context switch
2072         *    C: read CS_TIMESTAMP on GPU (in original context)
2073         *
2074         * Preemption dispatch latency: B - A
2075         * Preemption switch latency: C - B
2076         */
2077
2078        if (!intel_engine_has_preemption(ce->engine))
2079                return 0;
2080
2081        for (i = 1; i <= ARRAY_SIZE(elapsed); i++) {
2082                u32 addr = offset + 2 * i * sizeof(u32);
2083                struct i915_request *rq;
2084
2085                rq = i915_request_create(ce);
2086                if (IS_ERR(rq)) {
2087                        err = PTR_ERR(rq);
2088                        goto err;
2089                }
2090
2091                cs = intel_ring_begin(rq, 12);
2092                if (IS_ERR(cs)) {
2093                        i915_request_add(rq);
2094                        err = PTR_ERR(cs);
2095                        goto err;
2096                }
2097
2098                cs = emit_store_dw(cs, addr, -1);
2099                cs = emit_semaphore_poll_until(cs, offset, i);
2100                cs = emit_timestamp_store(cs, ce, addr + sizeof(u32));
2101
2102                intel_ring_advance(rq, cs);
2103                i915_request_add(rq);
2104
2105                if (wait_for(READ_ONCE(sema[2 * i]) == -1, 500)) {
2106                        err = -EIO;
2107                        goto err;
2108                }
2109
2110                rq = i915_request_create(ce->engine->kernel_context);
2111                if (IS_ERR(rq)) {
2112                        err = PTR_ERR(rq);
2113                        goto err;
2114                }
2115
2116                cs = intel_ring_begin(rq, 8);
2117                if (IS_ERR(cs)) {
2118                        i915_request_add(rq);
2119                        err = PTR_ERR(cs);
2120                        goto err;
2121                }
2122
2123                cs = emit_timestamp_store(cs, ce, addr);
2124                cs = emit_store_dw(cs, offset, i);
2125
2126                intel_ring_advance(rq, cs);
2127                rq->sched.attr.priority = I915_PRIORITY_BARRIER;
2128
2129                elapsed[i - 1] = ENGINE_READ_FW(ce->engine, RING_TIMESTAMP);
2130                i915_request_add(rq);
2131        }
2132
2133        if (wait_for(READ_ONCE(sema[2 * i - 2]) != -1, 500)) {
2134                err = -EIO;
2135                goto err;
2136        }
2137
2138        for (i = 1; i <= TF_COUNT; i++)
2139                elapsed[i - 1] = sema[2 * i + 0] - elapsed[i - 1];
2140
2141        cycles = trifilter(elapsed);
2142        pr_info("%s: preemption dispatch latency %d cycles, %lluns\n",
2143                ce->engine->name, cycles >> TF_BIAS,
2144                cycles_to_ns(ce->engine, cycles));
2145
2146        for (i = 1; i <= TF_COUNT; i++)
2147                elapsed[i - 1] = sema[2 * i + 1] - sema[2 * i + 0];
2148
2149        cycles = trifilter(elapsed);
2150        pr_info("%s: preemption switch latency %d cycles, %lluns\n",
2151                ce->engine->name, cycles >> TF_BIAS,
2152                cycles_to_ns(ce->engine, cycles));
2153
2154        return intel_gt_wait_for_idle(ce->engine->gt, HZ);
2155
2156err:
2157        intel_gt_set_wedged(ce->engine->gt);
2158        return err;
2159}
2160
2161struct signal_cb {
2162        struct dma_fence_cb base;
2163        bool seen;
2164};
2165
2166static void signal_cb(struct dma_fence *fence, struct dma_fence_cb *cb)
2167{
2168        struct signal_cb *s = container_of(cb, typeof(*s), base);
2169
2170        smp_store_mb(s->seen, true); /* be safe, be strong */
2171}
2172
2173static int measure_completion(struct intel_context *ce)
2174{
2175        u32 *sema = hwsp_scratch(ce);
2176        const u32 offset = hwsp_offset(ce, sema);
2177        u32 elapsed[TF_COUNT], cycles;
2178        u32 *cs;
2179        int err;
2180        int i;
2181
2182        /*
2183         * Measure how long it takes for the signal (interrupt) to be
2184         * sent from the GPU to be processed by the CPU.
2185         *
2186         *    A: read CS_TIMESTAMP on GPU
2187         *    signal
2188         *    B: read CS_TIMESTAMP from CPU
2189         *
2190         * Completion latency: B - A
2191         */
2192
2193        for (i = 1; i <= ARRAY_SIZE(elapsed); i++) {
2194                struct signal_cb cb = { .seen = false };
2195                struct i915_request *rq;
2196
2197                rq = i915_request_create(ce);
2198                if (IS_ERR(rq)) {
2199                        err = PTR_ERR(rq);
2200                        goto err;
2201                }
2202
2203                cs = intel_ring_begin(rq, 12);
2204                if (IS_ERR(cs)) {
2205                        i915_request_add(rq);
2206                        err = PTR_ERR(cs);
2207                        goto err;
2208                }
2209
2210                cs = emit_store_dw(cs, offset + i * sizeof(u32), -1);
2211                cs = emit_semaphore_poll_until(cs, offset, i);
2212                cs = emit_timestamp_store(cs, ce, offset + i * sizeof(u32));
2213
2214                intel_ring_advance(rq, cs);
2215
2216                dma_fence_add_callback(&rq->fence, &cb.base, signal_cb);
2217
2218                local_bh_disable();
2219                i915_request_add(rq);
2220                local_bh_enable();
2221
2222                if (wait_for(READ_ONCE(sema[i]) == -1, 50)) {
2223                        err = -EIO;
2224                        goto err;
2225                }
2226
2227                preempt_disable();
2228                semaphore_set(sema, i);
2229                while (!READ_ONCE(cb.seen))
2230                        cpu_relax();
2231
2232                elapsed[i - 1] = ENGINE_READ_FW(ce->engine, RING_TIMESTAMP);
2233                preempt_enable();
2234        }
2235
2236        err = intel_gt_wait_for_idle(ce->engine->gt, HZ / 2);
2237        if (err)
2238                goto err;
2239
2240        for (i = 0; i < ARRAY_SIZE(elapsed); i++) {
2241                GEM_BUG_ON(sema[i + 1] == -1);
2242                elapsed[i] = elapsed[i] - sema[i + 1];
2243        }
2244
2245        cycles = trifilter(elapsed);
2246        pr_info("%s: completion latency %d cycles, %lluns\n",
2247                ce->engine->name, cycles >> TF_BIAS,
2248                cycles_to_ns(ce->engine, cycles));
2249
2250        return intel_gt_wait_for_idle(ce->engine->gt, HZ);
2251
2252err:
2253        intel_gt_set_wedged(ce->engine->gt);
2254        return err;
2255}
2256
2257static void rps_pin(struct intel_gt *gt)
2258{
2259        /* Pin the frequency to max */
2260        atomic_inc(&gt->rps.num_waiters);
2261        intel_uncore_forcewake_get(gt->uncore, FORCEWAKE_ALL);
2262
2263        mutex_lock(&gt->rps.lock);
2264        intel_rps_set(&gt->rps, gt->rps.max_freq);
2265        mutex_unlock(&gt->rps.lock);
2266}
2267
2268static void rps_unpin(struct intel_gt *gt)
2269{
2270        intel_uncore_forcewake_put(gt->uncore, FORCEWAKE_ALL);
2271        atomic_dec(&gt->rps.num_waiters);
2272}
2273
2274static int perf_request_latency(void *arg)
2275{
2276        struct drm_i915_private *i915 = arg;
2277        struct intel_engine_cs *engine;
2278        struct pm_qos_request qos;
2279        int err = 0;
2280
2281        if (INTEL_GEN(i915) < 8) /* per-engine CS timestamp, semaphores */
2282                return 0;
2283
2284        cpu_latency_qos_add_request(&qos, 0); /* disable cstates */
2285
2286        for_each_uabi_engine(engine, i915) {
2287                struct intel_context *ce;
2288
2289                ce = intel_context_create(engine);
2290                if (IS_ERR(ce))
2291                        goto out;
2292
2293                err = intel_context_pin(ce);
2294                if (err) {
2295                        intel_context_put(ce);
2296                        goto out;
2297                }
2298
2299                st_engine_heartbeat_disable(engine);
2300                rps_pin(engine->gt);
2301
2302                if (err == 0)
2303                        err = measure_semaphore_response(ce);
2304                if (err == 0)
2305                        err = measure_idle_dispatch(ce);
2306                if (err == 0)
2307                        err = measure_busy_dispatch(ce);
2308                if (err == 0)
2309                        err = measure_inter_request(ce);
2310                if (err == 0)
2311                        err = measure_context_switch(ce);
2312                if (err == 0)
2313                        err = measure_preemption(ce);
2314                if (err == 0)
2315                        err = measure_completion(ce);
2316
2317                rps_unpin(engine->gt);
2318                st_engine_heartbeat_enable(engine);
2319
2320                intel_context_unpin(ce);
2321                intel_context_put(ce);
2322                if (err)
2323                        goto out;
2324        }
2325
2326out:
2327        if (igt_flush_test(i915))
2328                err = -EIO;
2329
2330        cpu_latency_qos_remove_request(&qos);
2331        return err;
2332}
2333
2334static int s_sync0(void *arg)
2335{
2336        struct perf_series *ps = arg;
2337        IGT_TIMEOUT(end_time);
2338        unsigned int idx = 0;
2339        int err = 0;
2340
2341        GEM_BUG_ON(!ps->nengines);
2342        do {
2343                struct i915_request *rq;
2344
2345                rq = i915_request_create(ps->ce[idx]);
2346                if (IS_ERR(rq)) {
2347                        err = PTR_ERR(rq);
2348                        break;
2349                }
2350
2351                i915_request_get(rq);
2352                i915_request_add(rq);
2353
2354                if (i915_request_wait(rq, 0, HZ / 5) < 0)
2355                        err = -ETIME;
2356                i915_request_put(rq);
2357                if (err)
2358                        break;
2359
2360                if (++idx == ps->nengines)
2361                        idx = 0;
2362        } while (!__igt_timeout(end_time, NULL));
2363
2364        return err;
2365}
2366
2367static int s_sync1(void *arg)
2368{
2369        struct perf_series *ps = arg;
2370        struct i915_request *prev = NULL;
2371        IGT_TIMEOUT(end_time);
2372        unsigned int idx = 0;
2373        int err = 0;
2374
2375        GEM_BUG_ON(!ps->nengines);
2376        do {
2377                struct i915_request *rq;
2378
2379                rq = i915_request_create(ps->ce[idx]);
2380                if (IS_ERR(rq)) {
2381                        err = PTR_ERR(rq);
2382                        break;
2383                }
2384
2385                i915_request_get(rq);
2386                i915_request_add(rq);
2387
2388                if (prev && i915_request_wait(prev, 0, HZ / 5) < 0)
2389                        err = -ETIME;
2390                i915_request_put(prev);
2391                prev = rq;
2392                if (err)
2393                        break;
2394
2395                if (++idx == ps->nengines)
2396                        idx = 0;
2397        } while (!__igt_timeout(end_time, NULL));
2398        i915_request_put(prev);
2399
2400        return err;
2401}
2402
2403static int s_many(void *arg)
2404{
2405        struct perf_series *ps = arg;
2406        IGT_TIMEOUT(end_time);
2407        unsigned int idx = 0;
2408
2409        GEM_BUG_ON(!ps->nengines);
2410        do {
2411                struct i915_request *rq;
2412
2413                rq = i915_request_create(ps->ce[idx]);
2414                if (IS_ERR(rq))
2415                        return PTR_ERR(rq);
2416
2417                i915_request_add(rq);
2418
2419                if (++idx == ps->nengines)
2420                        idx = 0;
2421        } while (!__igt_timeout(end_time, NULL));
2422
2423        return 0;
2424}
2425
2426static int perf_series_engines(void *arg)
2427{
2428        struct drm_i915_private *i915 = arg;
2429        static int (* const func[])(void *arg) = {
2430                s_sync0,
2431                s_sync1,
2432                s_many,
2433                NULL,
2434        };
2435        const unsigned int nengines = num_uabi_engines(i915);
2436        struct intel_engine_cs *engine;
2437        int (* const *fn)(void *arg);
2438        struct pm_qos_request qos;
2439        struct perf_stats *stats;
2440        struct perf_series *ps;
2441        unsigned int idx;
2442        int err = 0;
2443
2444        stats = kcalloc(nengines, sizeof(*stats), GFP_KERNEL);
2445        if (!stats)
2446                return -ENOMEM;
2447
2448        ps = kzalloc(struct_size(ps, ce, nengines), GFP_KERNEL);
2449        if (!ps) {
2450                kfree(stats);
2451                return -ENOMEM;
2452        }
2453
2454        cpu_latency_qos_add_request(&qos, 0); /* disable cstates */
2455
2456        ps->i915 = i915;
2457        ps->nengines = nengines;
2458
2459        idx = 0;
2460        for_each_uabi_engine(engine, i915) {
2461                struct intel_context *ce;
2462
2463                ce = intel_context_create(engine);
2464                if (IS_ERR(ce))
2465                        goto out;
2466
2467                err = intel_context_pin(ce);
2468                if (err) {
2469                        intel_context_put(ce);
2470                        goto out;
2471                }
2472
2473                ps->ce[idx++] = ce;
2474        }
2475        GEM_BUG_ON(idx != ps->nengines);
2476
2477        for (fn = func; *fn && !err; fn++) {
2478                char name[KSYM_NAME_LEN];
2479                struct igt_live_test t;
2480
2481                snprintf(name, sizeof(name), "%ps", *fn);
2482                err = igt_live_test_begin(&t, i915, __func__, name);
2483                if (err)
2484                        break;
2485
2486                for (idx = 0; idx < nengines; idx++) {
2487                        struct perf_stats *p =
2488                                memset(&stats[idx], 0, sizeof(stats[idx]));
2489                        struct intel_context *ce = ps->ce[idx];
2490
2491                        p->engine = ps->ce[idx]->engine;
2492                        intel_engine_pm_get(p->engine);
2493
2494                        if (intel_engine_supports_stats(p->engine))
2495                                p->busy = intel_engine_get_busy_time(p->engine,
2496                                                                     &p->time) + 1;
2497                        else
2498                                p->time = ktime_get();
2499                        p->runtime = -intel_context_get_total_runtime_ns(ce);
2500                }
2501
2502                err = (*fn)(ps);
2503                if (igt_live_test_end(&t))
2504                        err = -EIO;
2505
2506                for (idx = 0; idx < nengines; idx++) {
2507                        struct perf_stats *p = &stats[idx];
2508                        struct intel_context *ce = ps->ce[idx];
2509                        int integer, decimal;
2510                        u64 busy, dt, now;
2511
2512                        if (p->busy)
2513                                p->busy = ktime_sub(intel_engine_get_busy_time(p->engine,
2514                                                                               &now),
2515                                                    p->busy - 1);
2516                        else
2517                                now = ktime_get();
2518                        p->time = ktime_sub(now, p->time);
2519
2520                        err = switch_to_kernel_sync(ce, err);
2521                        p->runtime += intel_context_get_total_runtime_ns(ce);
2522                        intel_engine_pm_put(p->engine);
2523
2524                        busy = 100 * ktime_to_ns(p->busy);
2525                        dt = ktime_to_ns(p->time);
2526                        if (dt) {
2527                                integer = div64_u64(busy, dt);
2528                                busy -= integer * dt;
2529                                decimal = div64_u64(100 * busy, dt);
2530                        } else {
2531                                integer = 0;
2532                                decimal = 0;
2533                        }
2534
2535                        pr_info("%s %5s: { seqno:%d, busy:%d.%02d%%, runtime:%lldms, walltime:%lldms }\n",
2536                                name, p->engine->name, ce->timeline->seqno,
2537                                integer, decimal,
2538                                div_u64(p->runtime, 1000 * 1000),
2539                                div_u64(ktime_to_ns(p->time), 1000 * 1000));
2540                }
2541        }
2542
2543out:
2544        for (idx = 0; idx < nengines; idx++) {
2545                if (IS_ERR_OR_NULL(ps->ce[idx]))
2546                        break;
2547
2548                intel_context_unpin(ps->ce[idx]);
2549                intel_context_put(ps->ce[idx]);
2550        }
2551        kfree(ps);
2552
2553        cpu_latency_qos_remove_request(&qos);
2554        kfree(stats);
2555        return err;
2556}
2557
2558static int p_sync0(void *arg)
2559{
2560        struct perf_stats *p = arg;
2561        struct intel_engine_cs *engine = p->engine;
2562        struct intel_context *ce;
2563        IGT_TIMEOUT(end_time);
2564        unsigned long count;
2565        bool busy;
2566        int err = 0;
2567
2568        ce = intel_context_create(engine);
2569        if (IS_ERR(ce))
2570                return PTR_ERR(ce);
2571
2572        err = intel_context_pin(ce);
2573        if (err) {
2574                intel_context_put(ce);
2575                return err;
2576        }
2577
2578        if (intel_engine_supports_stats(engine)) {
2579                p->busy = intel_engine_get_busy_time(engine, &p->time);
2580                busy = true;
2581        } else {
2582                p->time = ktime_get();
2583                busy = false;
2584        }
2585
2586        count = 0;
2587        do {
2588                struct i915_request *rq;
2589
2590                rq = i915_request_create(ce);
2591                if (IS_ERR(rq)) {
2592                        err = PTR_ERR(rq);
2593                        break;
2594                }
2595
2596                i915_request_get(rq);
2597                i915_request_add(rq);
2598
2599                err = 0;
2600                if (i915_request_wait(rq, 0, HZ / 5) < 0)
2601                        err = -ETIME;
2602                i915_request_put(rq);
2603                if (err)
2604                        break;
2605
2606                count++;
2607        } while (!__igt_timeout(end_time, NULL));
2608
2609        if (busy) {
2610                ktime_t now;
2611
2612                p->busy = ktime_sub(intel_engine_get_busy_time(engine, &now),
2613                                    p->busy);
2614                p->time = ktime_sub(now, p->time);
2615        } else {
2616                p->time = ktime_sub(ktime_get(), p->time);
2617        }
2618
2619        err = switch_to_kernel_sync(ce, err);
2620        p->runtime = intel_context_get_total_runtime_ns(ce);
2621        p->count = count;
2622
2623        intel_context_unpin(ce);
2624        intel_context_put(ce);
2625        return err;
2626}
2627
2628static int p_sync1(void *arg)
2629{
2630        struct perf_stats *p = arg;
2631        struct intel_engine_cs *engine = p->engine;
2632        struct i915_request *prev = NULL;
2633        struct intel_context *ce;
2634        IGT_TIMEOUT(end_time);
2635        unsigned long count;
2636        bool busy;
2637        int err = 0;
2638
2639        ce = intel_context_create(engine);
2640        if (IS_ERR(ce))
2641                return PTR_ERR(ce);
2642
2643        err = intel_context_pin(ce);
2644        if (err) {
2645                intel_context_put(ce);
2646                return err;
2647        }
2648
2649        if (intel_engine_supports_stats(engine)) {
2650                p->busy = intel_engine_get_busy_time(engine, &p->time);
2651                busy = true;
2652        } else {
2653                p->time = ktime_get();
2654                busy = false;
2655        }
2656
2657        count = 0;
2658        do {
2659                struct i915_request *rq;
2660
2661                rq = i915_request_create(ce);
2662                if (IS_ERR(rq)) {
2663                        err = PTR_ERR(rq);
2664                        break;
2665                }
2666
2667                i915_request_get(rq);
2668                i915_request_add(rq);
2669
2670                err = 0;
2671                if (prev && i915_request_wait(prev, 0, HZ / 5) < 0)
2672                        err = -ETIME;
2673                i915_request_put(prev);
2674                prev = rq;
2675                if (err)
2676                        break;
2677
2678                count++;
2679        } while (!__igt_timeout(end_time, NULL));
2680        i915_request_put(prev);
2681
2682        if (busy) {
2683                ktime_t now;
2684
2685                p->busy = ktime_sub(intel_engine_get_busy_time(engine, &now),
2686                                    p->busy);
2687                p->time = ktime_sub(now, p->time);
2688        } else {
2689                p->time = ktime_sub(ktime_get(), p->time);
2690        }
2691
2692        err = switch_to_kernel_sync(ce, err);
2693        p->runtime = intel_context_get_total_runtime_ns(ce);
2694        p->count = count;
2695
2696        intel_context_unpin(ce);
2697        intel_context_put(ce);
2698        return err;
2699}
2700
2701static int p_many(void *arg)
2702{
2703        struct perf_stats *p = arg;
2704        struct intel_engine_cs *engine = p->engine;
2705        struct intel_context *ce;
2706        IGT_TIMEOUT(end_time);
2707        unsigned long count;
2708        int err = 0;
2709        bool busy;
2710
2711        ce = intel_context_create(engine);
2712        if (IS_ERR(ce))
2713                return PTR_ERR(ce);
2714
2715        err = intel_context_pin(ce);
2716        if (err) {
2717                intel_context_put(ce);
2718                return err;
2719        }
2720
2721        if (intel_engine_supports_stats(engine)) {
2722                p->busy = intel_engine_get_busy_time(engine, &p->time);
2723                busy = true;
2724        } else {
2725                p->time = ktime_get();
2726                busy = false;
2727        }
2728
2729        count = 0;
2730        do {
2731                struct i915_request *rq;
2732
2733                rq = i915_request_create(ce);
2734                if (IS_ERR(rq)) {
2735                        err = PTR_ERR(rq);
2736                        break;
2737                }
2738
2739                i915_request_add(rq);
2740                count++;
2741        } while (!__igt_timeout(end_time, NULL));
2742
2743        if (busy) {
2744                ktime_t now;
2745
2746                p->busy = ktime_sub(intel_engine_get_busy_time(engine, &now),
2747                                    p->busy);
2748                p->time = ktime_sub(now, p->time);
2749        } else {
2750                p->time = ktime_sub(ktime_get(), p->time);
2751        }
2752
2753        err = switch_to_kernel_sync(ce, err);
2754        p->runtime = intel_context_get_total_runtime_ns(ce);
2755        p->count = count;
2756
2757        intel_context_unpin(ce);
2758        intel_context_put(ce);
2759        return err;
2760}
2761
2762static int perf_parallel_engines(void *arg)
2763{
2764        struct drm_i915_private *i915 = arg;
2765        static int (* const func[])(void *arg) = {
2766                p_sync0,
2767                p_sync1,
2768                p_many,
2769                NULL,
2770        };
2771        const unsigned int nengines = num_uabi_engines(i915);
2772        struct intel_engine_cs *engine;
2773        int (* const *fn)(void *arg);
2774        struct pm_qos_request qos;
2775        struct {
2776                struct perf_stats p;
2777                struct task_struct *tsk;
2778        } *engines;
2779        int err = 0;
2780
2781        engines = kcalloc(nengines, sizeof(*engines), GFP_KERNEL);
2782        if (!engines)
2783                return -ENOMEM;
2784
2785        cpu_latency_qos_add_request(&qos, 0);
2786
2787        for (fn = func; *fn; fn++) {
2788                char name[KSYM_NAME_LEN];
2789                struct igt_live_test t;
2790                unsigned int idx;
2791
2792                snprintf(name, sizeof(name), "%ps", *fn);
2793                err = igt_live_test_begin(&t, i915, __func__, name);
2794                if (err)
2795                        break;
2796
2797                atomic_set(&i915->selftest.counter, nengines);
2798
2799                idx = 0;
2800                for_each_uabi_engine(engine, i915) {
2801                        intel_engine_pm_get(engine);
2802
2803                        memset(&engines[idx].p, 0, sizeof(engines[idx].p));
2804                        engines[idx].p.engine = engine;
2805
2806                        engines[idx].tsk = kthread_run(*fn, &engines[idx].p,
2807                                                       "igt:%s", engine->name);
2808                        if (IS_ERR(engines[idx].tsk)) {
2809                                err = PTR_ERR(engines[idx].tsk);
2810                                intel_engine_pm_put(engine);
2811                                break;
2812                        }
2813                        get_task_struct(engines[idx++].tsk);
2814                }
2815
2816                yield(); /* start all threads before we kthread_stop() */
2817
2818                idx = 0;
2819                for_each_uabi_engine(engine, i915) {
2820                        int status;
2821
2822                        if (IS_ERR(engines[idx].tsk))
2823                                break;
2824
2825                        status = kthread_stop(engines[idx].tsk);
2826                        if (status && !err)
2827                                err = status;
2828
2829                        intel_engine_pm_put(engine);
2830                        put_task_struct(engines[idx++].tsk);
2831                }
2832
2833                if (igt_live_test_end(&t))
2834                        err = -EIO;
2835                if (err)
2836                        break;
2837
2838                idx = 0;
2839                for_each_uabi_engine(engine, i915) {
2840                        struct perf_stats *p = &engines[idx].p;
2841                        u64 busy = 100 * ktime_to_ns(p->busy);
2842                        u64 dt = ktime_to_ns(p->time);
2843                        int integer, decimal;
2844
2845                        if (dt) {
2846                                integer = div64_u64(busy, dt);
2847                                busy -= integer * dt;
2848                                decimal = div64_u64(100 * busy, dt);
2849                        } else {
2850                                integer = 0;
2851                                decimal = 0;
2852                        }
2853
2854                        GEM_BUG_ON(engine != p->engine);
2855                        pr_info("%s %5s: { count:%lu, busy:%d.%02d%%, runtime:%lldms, walltime:%lldms }\n",
2856                                name, engine->name, p->count, integer, decimal,
2857                                div_u64(p->runtime, 1000 * 1000),
2858                                div_u64(ktime_to_ns(p->time), 1000 * 1000));
2859                        idx++;
2860                }
2861        }
2862
2863        cpu_latency_qos_remove_request(&qos);
2864        kfree(engines);
2865        return err;
2866}
2867
2868int i915_request_perf_selftests(struct drm_i915_private *i915)
2869{
2870        static const struct i915_subtest tests[] = {
2871                SUBTEST(perf_request_latency),
2872                SUBTEST(perf_series_engines),
2873                SUBTEST(perf_parallel_engines),
2874        };
2875
2876        if (intel_gt_is_wedged(&i915->gt))
2877                return 0;
2878
2879        return i915_subtests(tests, i915);
2880}
2881