linux/arch/sparc/lib/NG4memcpy.S
<<
>>
Prefs
   1/* SPDX-License-Identifier: GPL-2.0 */
   2/* NG4memcpy.S: Niagara-4 optimized memcpy.
   3 *
   4 * Copyright (C) 2012 David S. Miller (davem@davemloft.net)
   5 */
   6
   7#ifdef __KERNEL__
   8#include <linux/linkage.h>
   9#include <asm/visasm.h>
  10#include <asm/asi.h>
  11#define GLOBAL_SPARE    %g7
  12#else
  13#define ASI_BLK_INIT_QUAD_LDD_P 0xe2
  14#define FPRS_FEF  0x04
  15
  16/* On T4 it is very expensive to access ASRs like %fprs and
  17 * %asi, avoiding a read or a write can save ~50 cycles.
  18 */
  19#define FPU_ENTER                       \
  20        rd      %fprs, %o5;             \
  21        andcc   %o5, FPRS_FEF, %g0;     \
  22        be,a,pn %icc, 999f;             \
  23         wr     %g0, FPRS_FEF, %fprs;   \
  24        999:
  25
  26#ifdef MEMCPY_DEBUG
  27#define VISEntryHalf FPU_ENTER; \
  28                     clr %g1; clr %g2; clr %g3; clr %g5; subcc %g0, %g0, %g0;
  29#define VISExitHalf and %o5, FPRS_FEF, %o5; wr %o5, 0x0, %fprs
  30#else
  31#define VISEntryHalf FPU_ENTER
  32#define VISExitHalf and %o5, FPRS_FEF, %o5; wr %o5, 0x0, %fprs
  33#endif
  34
  35#define GLOBAL_SPARE    %g5
  36#endif
  37
  38#ifndef STORE_ASI
  39#ifndef SIMULATE_NIAGARA_ON_NON_NIAGARA
  40#define STORE_ASI       ASI_BLK_INIT_QUAD_LDD_P
  41#else
  42#define STORE_ASI       0x80            /* ASI_P */
  43#endif
  44#endif
  45
  46#if !defined(EX_LD) && !defined(EX_ST)
  47#define NON_USER_COPY
  48#endif
  49
  50#ifndef EX_LD
  51#define EX_LD(x,y)      x
  52#endif
  53#ifndef EX_LD_FP
  54#define EX_LD_FP(x,y)   x
  55#endif
  56
  57#ifndef EX_ST
  58#define EX_ST(x,y)      x
  59#endif
  60#ifndef EX_ST_FP
  61#define EX_ST_FP(x,y)   x
  62#endif
  63
  64
  65#ifndef LOAD
  66#define LOAD(type,addr,dest)    type [addr], dest
  67#endif
  68
  69#ifndef STORE
  70#ifndef MEMCPY_DEBUG
  71#define STORE(type,src,addr)    type src, [addr]
  72#else
  73#define STORE(type,src,addr)    type##a src, [addr] %asi
  74#endif
  75#endif
  76
  77#ifndef STORE_INIT
  78#define STORE_INIT(src,addr)    stxa src, [addr] STORE_ASI
  79#endif
  80
  81#ifndef FUNC_NAME
  82#define FUNC_NAME       NG4memcpy
  83#endif
  84#ifndef PREAMBLE
  85#define PREAMBLE
  86#endif
  87
  88#ifndef XCC
  89#define XCC xcc
  90#endif
  91
  92        .register       %g2,#scratch
  93        .register       %g3,#scratch
  94
  95        .text
  96#ifndef EX_RETVAL
  97#define EX_RETVAL(x)    x
  98#endif
  99        .align          64
 100
 101        .globl  FUNC_NAME
 102        .type   FUNC_NAME,#function
 103FUNC_NAME:      /* %o0=dst, %o1=src, %o2=len */
 104#ifdef MEMCPY_DEBUG
 105        wr              %g0, 0x80, %asi
 106#endif
 107        srlx            %o2, 31, %g2
 108        cmp             %g2, 0
 109        tne             %XCC, 5
 110        PREAMBLE
 111        mov             %o0, %o3
 112        brz,pn          %o2, .Lexit
 113         cmp            %o2, 3
 114        ble,pn          %icc, .Ltiny
 115         cmp            %o2, 19
 116        ble,pn          %icc, .Lsmall
 117         or             %o0, %o1, %g2
 118        cmp             %o2, 128
 119        bl,pn           %icc, .Lmedium
 120         nop
 121
 122.Llarge:/* len >= 0x80 */
 123        /* First get dest 8 byte aligned.  */
 124        sub             %g0, %o0, %g1
 125        and             %g1, 0x7, %g1
 126        brz,pt          %g1, 51f
 127         sub            %o2, %g1, %o2
 128
 129
 1301:      EX_LD(LOAD(ldub, %o1 + 0x00, %g2), memcpy_retl_o2_plus_g1)
 131        add             %o1, 1, %o1
 132        subcc           %g1, 1, %g1
 133        add             %o0, 1, %o0
 134        bne,pt          %icc, 1b
 135         EX_ST(STORE(stb, %g2, %o0 - 0x01), memcpy_retl_o2_plus_g1_plus_1)
 136
 13751:     LOAD(prefetch, %o1 + 0x040, #n_reads_strong)
 138        LOAD(prefetch, %o1 + 0x080, #n_reads_strong)
 139        LOAD(prefetch, %o1 + 0x0c0, #n_reads_strong)
 140        LOAD(prefetch, %o1 + 0x100, #n_reads_strong)
 141        LOAD(prefetch, %o1 + 0x140, #n_reads_strong)
 142        LOAD(prefetch, %o1 + 0x180, #n_reads_strong)
 143        LOAD(prefetch, %o1 + 0x1c0, #n_reads_strong)
 144        LOAD(prefetch, %o1 + 0x200, #n_reads_strong)
 145
 146        /* Check if we can use the straight fully aligned
 147         * loop, or we require the alignaddr/faligndata variant.
 148         */
 149        andcc           %o1, 0x7, %o5
 150        bne,pn          %icc, .Llarge_src_unaligned
 151         sub            %g0, %o0, %g1
 152
 153        /* Legitimize the use of initializing stores by getting dest
 154         * to be 64-byte aligned.
 155         */
 156        and             %g1, 0x3f, %g1
 157        brz,pt          %g1, .Llarge_aligned
 158         sub            %o2, %g1, %o2
 159
 1601:      EX_LD(LOAD(ldx, %o1 + 0x00, %g2), memcpy_retl_o2_plus_g1)
 161        add             %o1, 8, %o1
 162        subcc           %g1, 8, %g1
 163        add             %o0, 8, %o0
 164        bne,pt          %icc, 1b
 165         EX_ST(STORE(stx, %g2, %o0 - 0x08), memcpy_retl_o2_plus_g1_plus_8)
 166
 167.Llarge_aligned:
 168        /* len >= 0x80 && src 8-byte aligned && dest 8-byte aligned */
 169        andn            %o2, 0x3f, %o4
 170        sub             %o2, %o4, %o2
 171
 1721:      EX_LD(LOAD(ldx, %o1 + 0x00, %g1), memcpy_retl_o2_plus_o4)
 173        add             %o1, 0x40, %o1
 174        EX_LD(LOAD(ldx, %o1 - 0x38, %g2), memcpy_retl_o2_plus_o4)
 175        subcc           %o4, 0x40, %o4
 176        EX_LD(LOAD(ldx, %o1 - 0x30, %g3), memcpy_retl_o2_plus_o4_plus_64)
 177        EX_LD(LOAD(ldx, %o1 - 0x28, GLOBAL_SPARE), memcpy_retl_o2_plus_o4_plus_64)
 178        EX_LD(LOAD(ldx, %o1 - 0x20, %o5), memcpy_retl_o2_plus_o4_plus_64)
 179        EX_ST(STORE_INIT(%g1, %o0), memcpy_retl_o2_plus_o4_plus_64)
 180        add             %o0, 0x08, %o0
 181        EX_ST(STORE_INIT(%g2, %o0), memcpy_retl_o2_plus_o4_plus_56)
 182        add             %o0, 0x08, %o0
 183        EX_LD(LOAD(ldx, %o1 - 0x18, %g2), memcpy_retl_o2_plus_o4_plus_48)
 184        EX_ST(STORE_INIT(%g3, %o0), memcpy_retl_o2_plus_o4_plus_48)
 185        add             %o0, 0x08, %o0
 186        EX_LD(LOAD(ldx, %o1 - 0x10, %g3), memcpy_retl_o2_plus_o4_plus_40)
 187        EX_ST(STORE_INIT(GLOBAL_SPARE, %o0), memcpy_retl_o2_plus_o4_plus_40)
 188        add             %o0, 0x08, %o0
 189        EX_LD(LOAD(ldx, %o1 - 0x08, GLOBAL_SPARE), memcpy_retl_o2_plus_o4_plus_32)
 190        EX_ST(STORE_INIT(%o5, %o0), memcpy_retl_o2_plus_o4_plus_32)
 191        add             %o0, 0x08, %o0
 192        EX_ST(STORE_INIT(%g2, %o0), memcpy_retl_o2_plus_o4_plus_24)
 193        add             %o0, 0x08, %o0
 194        EX_ST(STORE_INIT(%g3, %o0), memcpy_retl_o2_plus_o4_plus_16)
 195        add             %o0, 0x08, %o0
 196        EX_ST(STORE_INIT(GLOBAL_SPARE, %o0), memcpy_retl_o2_plus_o4_plus_8)
 197        add             %o0, 0x08, %o0
 198        bne,pt          %icc, 1b
 199         LOAD(prefetch, %o1 + 0x200, #n_reads_strong)
 200
 201        membar          #StoreLoad | #StoreStore
 202
 203        brz,pn          %o2, .Lexit
 204         cmp            %o2, 19
 205        ble,pn          %icc, .Lsmall_unaligned
 206         nop
 207        ba,a,pt         %icc, .Lmedium_noprefetch
 208
 209.Lexit: retl
 210         mov            EX_RETVAL(%o3), %o0
 211
 212.Llarge_src_unaligned:
 213#ifdef NON_USER_COPY
 214        VISEntryHalfFast(.Lmedium_vis_entry_fail)
 215#else
 216        VISEntryHalf
 217#endif
 218        andn            %o2, 0x3f, %o4
 219        sub             %o2, %o4, %o2
 220        alignaddr       %o1, %g0, %g1
 221        add             %o1, %o4, %o1
 222        EX_LD_FP(LOAD(ldd, %g1 + 0x00, %f0), memcpy_retl_o2_plus_o4)
 2231:      EX_LD_FP(LOAD(ldd, %g1 + 0x08, %f2), memcpy_retl_o2_plus_o4)
 224        subcc           %o4, 0x40, %o4
 225        EX_LD_FP(LOAD(ldd, %g1 + 0x10, %f4), memcpy_retl_o2_plus_o4_plus_64)
 226        EX_LD_FP(LOAD(ldd, %g1 + 0x18, %f6), memcpy_retl_o2_plus_o4_plus_64)
 227        EX_LD_FP(LOAD(ldd, %g1 + 0x20, %f8), memcpy_retl_o2_plus_o4_plus_64)
 228        EX_LD_FP(LOAD(ldd, %g1 + 0x28, %f10), memcpy_retl_o2_plus_o4_plus_64)
 229        EX_LD_FP(LOAD(ldd, %g1 + 0x30, %f12), memcpy_retl_o2_plus_o4_plus_64)
 230        EX_LD_FP(LOAD(ldd, %g1 + 0x38, %f14), memcpy_retl_o2_plus_o4_plus_64)
 231        faligndata      %f0, %f2, %f16
 232        EX_LD_FP(LOAD(ldd, %g1 + 0x40, %f0), memcpy_retl_o2_plus_o4_plus_64)
 233        faligndata      %f2, %f4, %f18
 234        add             %g1, 0x40, %g1
 235        faligndata      %f4, %f6, %f20
 236        faligndata      %f6, %f8, %f22
 237        faligndata      %f8, %f10, %f24
 238        faligndata      %f10, %f12, %f26
 239        faligndata      %f12, %f14, %f28
 240        faligndata      %f14, %f0, %f30
 241        EX_ST_FP(STORE(std, %f16, %o0 + 0x00), memcpy_retl_o2_plus_o4_plus_64)
 242        EX_ST_FP(STORE(std, %f18, %o0 + 0x08), memcpy_retl_o2_plus_o4_plus_56)
 243        EX_ST_FP(STORE(std, %f20, %o0 + 0x10), memcpy_retl_o2_plus_o4_plus_48)
 244        EX_ST_FP(STORE(std, %f22, %o0 + 0x18), memcpy_retl_o2_plus_o4_plus_40)
 245        EX_ST_FP(STORE(std, %f24, %o0 + 0x20), memcpy_retl_o2_plus_o4_plus_32)
 246        EX_ST_FP(STORE(std, %f26, %o0 + 0x28), memcpy_retl_o2_plus_o4_plus_24)
 247        EX_ST_FP(STORE(std, %f28, %o0 + 0x30), memcpy_retl_o2_plus_o4_plus_16)
 248        EX_ST_FP(STORE(std, %f30, %o0 + 0x38), memcpy_retl_o2_plus_o4_plus_8)
 249        add             %o0, 0x40, %o0
 250        bne,pt          %icc, 1b
 251         LOAD(prefetch, %g1 + 0x200, #n_reads_strong)
 252#ifdef NON_USER_COPY
 253        VISExitHalfFast
 254#else
 255        VISExitHalf
 256#endif
 257        brz,pn          %o2, .Lexit
 258         cmp            %o2, 19
 259        ble,pn          %icc, .Lsmall_unaligned
 260         nop
 261        ba,a,pt         %icc, .Lmedium_unaligned
 262
 263#ifdef NON_USER_COPY
 264.Lmedium_vis_entry_fail:
 265         or             %o0, %o1, %g2
 266#endif
 267.Lmedium:
 268        LOAD(prefetch, %o1 + 0x40, #n_reads_strong)
 269        andcc           %g2, 0x7, %g0
 270        bne,pn          %icc, .Lmedium_unaligned
 271         nop
 272.Lmedium_noprefetch:
 273        andncc          %o2, 0x20 - 1, %o5
 274        be,pn           %icc, 2f
 275         sub            %o2, %o5, %o2
 2761:      EX_LD(LOAD(ldx, %o1 + 0x00, %g1), memcpy_retl_o2_plus_o5)
 277        EX_LD(LOAD(ldx, %o1 + 0x08, %g2), memcpy_retl_o2_plus_o5)
 278        EX_LD(LOAD(ldx, %o1 + 0x10, GLOBAL_SPARE), memcpy_retl_o2_plus_o5)
 279        EX_LD(LOAD(ldx, %o1 + 0x18, %o4), memcpy_retl_o2_plus_o5)
 280        add             %o1, 0x20, %o1
 281        subcc           %o5, 0x20, %o5
 282        EX_ST(STORE(stx, %g1, %o0 + 0x00), memcpy_retl_o2_plus_o5_plus_32)
 283        EX_ST(STORE(stx, %g2, %o0 + 0x08), memcpy_retl_o2_plus_o5_plus_24)
 284        EX_ST(STORE(stx, GLOBAL_SPARE, %o0 + 0x10), memcpy_retl_o2_plus_o5_plus_24)
 285        EX_ST(STORE(stx, %o4, %o0 + 0x18), memcpy_retl_o2_plus_o5_plus_8)
 286        bne,pt          %icc, 1b
 287         add            %o0, 0x20, %o0
 2882:      andcc           %o2, 0x18, %o5
 289        be,pt           %icc, 3f
 290         sub            %o2, %o5, %o2
 291
 2921:      EX_LD(LOAD(ldx, %o1 + 0x00, %g1), memcpy_retl_o2_plus_o5)
 293        add             %o1, 0x08, %o1
 294        add             %o0, 0x08, %o0
 295        subcc           %o5, 0x08, %o5
 296        bne,pt          %icc, 1b
 297         EX_ST(STORE(stx, %g1, %o0 - 0x08), memcpy_retl_o2_plus_o5_plus_8)
 2983:      brz,pt          %o2, .Lexit
 299         cmp            %o2, 0x04
 300        bl,pn           %icc, .Ltiny
 301         nop
 302        EX_LD(LOAD(lduw, %o1 + 0x00, %g1), memcpy_retl_o2)
 303        add             %o1, 0x04, %o1
 304        add             %o0, 0x04, %o0
 305        subcc           %o2, 0x04, %o2
 306        bne,pn          %icc, .Ltiny
 307         EX_ST(STORE(stw, %g1, %o0 - 0x04), memcpy_retl_o2_plus_4)
 308        ba,a,pt         %icc, .Lexit
 309.Lmedium_unaligned:
 310        /* First get dest 8 byte aligned.  */
 311        sub             %g0, %o0, %g1
 312        and             %g1, 0x7, %g1
 313        brz,pt          %g1, 2f
 314         sub            %o2, %g1, %o2
 315
 3161:      EX_LD(LOAD(ldub, %o1 + 0x00, %g2), memcpy_retl_o2_plus_g1)
 317        add             %o1, 1, %o1
 318        subcc           %g1, 1, %g1
 319        add             %o0, 1, %o0
 320        bne,pt          %icc, 1b
 321         EX_ST(STORE(stb, %g2, %o0 - 0x01), memcpy_retl_o2_plus_g1_plus_1)
 3222:
 323        and             %o1, 0x7, %g1
 324        brz,pn          %g1, .Lmedium_noprefetch
 325         sll            %g1, 3, %g1
 326        mov             64, %g2
 327        sub             %g2, %g1, %g2
 328        andn            %o1, 0x7, %o1
 329        EX_LD(LOAD(ldx, %o1 + 0x00, %o4), memcpy_retl_o2)
 330        sllx            %o4, %g1, %o4
 331        andn            %o2, 0x08 - 1, %o5
 332        sub             %o2, %o5, %o2
 3331:      EX_LD(LOAD(ldx, %o1 + 0x08, %g3), memcpy_retl_o2_plus_o5)
 334        add             %o1, 0x08, %o1
 335        subcc           %o5, 0x08, %o5
 336        srlx            %g3, %g2, GLOBAL_SPARE
 337        or              GLOBAL_SPARE, %o4, GLOBAL_SPARE
 338        EX_ST(STORE(stx, GLOBAL_SPARE, %o0 + 0x00), memcpy_retl_o2_plus_o5_plus_8)
 339        add             %o0, 0x08, %o0
 340        bne,pt          %icc, 1b
 341         sllx           %g3, %g1, %o4
 342        srl             %g1, 3, %g1
 343        add             %o1, %g1, %o1
 344        brz,pn          %o2, .Lexit
 345         nop
 346        ba,pt           %icc, .Lsmall_unaligned
 347
 348.Ltiny:
 349        EX_LD(LOAD(ldub, %o1 + 0x00, %g1), memcpy_retl_o2)
 350        subcc           %o2, 1, %o2
 351        be,pn           %icc, .Lexit
 352         EX_ST(STORE(stb, %g1, %o0 + 0x00), memcpy_retl_o2_plus_1)
 353        EX_LD(LOAD(ldub, %o1 + 0x01, %g1), memcpy_retl_o2)
 354        subcc           %o2, 1, %o2
 355        be,pn           %icc, .Lexit
 356         EX_ST(STORE(stb, %g1, %o0 + 0x01), memcpy_retl_o2_plus_1)
 357        EX_LD(LOAD(ldub, %o1 + 0x02, %g1), memcpy_retl_o2)
 358        ba,pt           %icc, .Lexit
 359         EX_ST(STORE(stb, %g1, %o0 + 0x02), memcpy_retl_o2)
 360
 361.Lsmall:
 362        andcc           %g2, 0x3, %g0
 363        bne,pn          %icc, .Lsmall_unaligned
 364         andn           %o2, 0x4 - 1, %o5
 365        sub             %o2, %o5, %o2
 3661:
 367        EX_LD(LOAD(lduw, %o1 + 0x00, %g1), memcpy_retl_o2_plus_o5)
 368        add             %o1, 0x04, %o1
 369        subcc           %o5, 0x04, %o5
 370        add             %o0, 0x04, %o0
 371        bne,pt          %icc, 1b
 372         EX_ST(STORE(stw, %g1, %o0 - 0x04), memcpy_retl_o2_plus_o5_plus_4)
 373        brz,pt          %o2, .Lexit
 374         nop
 375        ba,a,pt         %icc, .Ltiny
 376
 377.Lsmall_unaligned:
 3781:      EX_LD(LOAD(ldub, %o1 + 0x00, %g1), memcpy_retl_o2)
 379        add             %o1, 1, %o1
 380        add             %o0, 1, %o0
 381        subcc           %o2, 1, %o2
 382        bne,pt          %icc, 1b
 383         EX_ST(STORE(stb, %g1, %o0 - 0x01), memcpy_retl_o2_plus_1)
 384        ba,a,pt         %icc, .Lexit
 385         nop
 386        .size           FUNC_NAME, .-FUNC_NAME
 387