[deb_x265.git] / source / common / x86 / x86util.asm

;*****************************************************************************
;* x86util.asm: x86 utility macros
;*****************************************************************************
;* Copyright (C) 2008-2013 x264 project
;*
;* Authors: Holger Lubitz <holger@lubitz.org>
;*          Loren Merritt <lorenm@u.washington.edu>
;*
;* This program is free software; you can redistribute it and/or modify
;* it under the terms of the GNU General Public License as published by
;* the Free Software Foundation; either version 2 of the License, or
;* (at your option) any later version.
;*
;* This program is distributed in the hope that it will be useful,
;* but WITHOUT ANY WARRANTY; without even the implied warranty of
;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
;* GNU General Public License for more details.
;*
;* You should have received a copy of the GNU General Public License
;* along with this program; if not, write to the Free Software
;* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA  02111, USA.
;*
;* This program is also available under a commercial proprietary license.
;* For more information, contact us at license @ x265.com.
;*****************************************************************************

%assign FENC_STRIDE 64
%assign FDEC_STRIDE 32

%assign SIZEOF_PIXEL 1
%assign SIZEOF_DCTCOEF 2
%define pixel byte
%define vpbroadcastdct vpbroadcastw
%define vpbroadcastpix vpbroadcastb
%if HIGH_BIT_DEPTH
    %assign SIZEOF_PIXEL 2
    %assign SIZEOF_DCTCOEF 4
    %define pixel word
    %define vpbroadcastdct vpbroadcastd
    %define vpbroadcastpix vpbroadcastw
%endif

%assign FENC_STRIDEB SIZEOF_PIXEL*FENC_STRIDE
%assign FDEC_STRIDEB SIZEOF_PIXEL*FDEC_STRIDE

%assign PIXEL_MAX ((1 << BIT_DEPTH)-1)

%macro FIX_STRIDES 1-*
%if HIGH_BIT_DEPTH
%rep %0
    add %1, %1
    %rotate 1
%endrep
%endif
%endmacro


%macro SBUTTERFLY 4
%ifidn %1, dqqq
    vperm2i128  m%4, m%2, m%3, q0301 ; punpckh
    vinserti128 m%2, m%2, xm%3, 1    ; punpckl
%elif avx_enabled && mmsize >= 16
    punpckh%1 m%4, m%2, m%3
    punpckl%1 m%2, m%3
%else
    mova      m%4, m%2
    punpckl%1 m%2, m%3
    punpckh%1 m%4, m%3
%endif
    SWAP %3, %4
%endmacro

%macro SBUTTERFLY2 4
    punpckl%1 m%4, m%2, m%3
    punpckh%1 m%2, m%2, m%3
    SWAP %2, %4, %3
%endmacro

%macro TRANSPOSE4x4W 5
    SBUTTERFLY wd, %1, %2, %5
    SBUTTERFLY wd, %3, %4, %5
    SBUTTERFLY dq, %1, %3, %5
    SBUTTERFLY dq, %2, %4, %5
    SWAP %2, %3
%endmacro

%macro TRANSPOSE2x4x4W 5
    SBUTTERFLY wd,  %1, %2, %5
    SBUTTERFLY wd,  %3, %4, %5
    SBUTTERFLY dq,  %1, %3, %5
    SBUTTERFLY dq,  %2, %4, %5
    SBUTTERFLY qdq, %1, %2, %5
    SBUTTERFLY qdq, %3, %4, %5
%endmacro

%macro TRANSPOSE4x4D 5
    SBUTTERFLY dq,  %1, %2, %5
    SBUTTERFLY dq,  %3, %4, %5
    SBUTTERFLY qdq, %1, %3, %5
    SBUTTERFLY qdq, %2, %4, %5
    SWAP %2, %3
%endmacro

%macro TRANSPOSE8x8W 9-11
%if ARCH_X86_64
    SBUTTERFLY wd,  %1, %2, %9
    SBUTTERFLY wd,  %3, %4, %9
    SBUTTERFLY wd,  %5, %6, %9
    SBUTTERFLY wd,  %7, %8, %9
    SBUTTERFLY dq,  %1, %3, %9
    SBUTTERFLY dq,  %2, %4, %9
    SBUTTERFLY dq,  %5, %7, %9
    SBUTTERFLY dq,  %6, %8, %9
    SBUTTERFLY qdq, %1, %5, %9
    SBUTTERFLY qdq, %2, %6, %9
    SBUTTERFLY qdq, %3, %7, %9
    SBUTTERFLY qdq, %4, %8, %9
    SWAP %2, %5
    SWAP %4, %7
%else
; in:  m0..m7, unless %11 in which case m6 is in %9
; out: m0..m7, unless %11 in which case m4 is in %10
; spills into %9 and %10
%if %0<11
    movdqa %9, m%7
%endif
    SBUTTERFLY wd,  %1, %2, %7
    movdqa %10, m%2
    movdqa m%7, %9
    SBUTTERFLY wd,  %3, %4, %2
    SBUTTERFLY wd,  %5, %6, %2
    SBUTTERFLY wd,  %7, %8, %2
    SBUTTERFLY dq,  %1, %3, %2
    movdqa %9, m%3
    movdqa m%2, %10
    SBUTTERFLY dq,  %2, %4, %3
    SBUTTERFLY dq,  %5, %7, %3
    SBUTTERFLY dq,  %6, %8, %3
    SBUTTERFLY qdq, %1, %5, %3
    SBUTTERFLY qdq, %2, %6, %3
    movdqa %10, m%2
    movdqa m%3, %9
    SBUTTERFLY qdq, %3, %7, %2
    SBUTTERFLY qdq, %4, %8, %2
    SWAP %2, %5
    SWAP %4, %7
%if %0<11
    movdqa m%5, %10
%endif
%endif
%endmacro

%macro WIDEN_SXWD 2
    punpckhwd m%2, m%1
    psrad     m%2, 16
%if cpuflag(sse4)
    pmovsxwd  m%1, m%1
%else
    punpcklwd m%1, m%1
    psrad     m%1, 16
%endif
%endmacro

%macro ABSW 2-3 ; dst, src, tmp (tmp used only if dst==src)
%if cpuflag(ssse3)
    pabsw   %1, %2
%elifidn %3, sign ; version for pairing with PSIGNW: modifies src
    pxor    %1, %1
    pcmpgtw %1, %2
    pxor    %2, %1
    psubw   %2, %1
    SWAP    %1, %2
%elifidn %1, %2
    pxor    %3, %3
    psubw   %3, %1
    pmaxsw  %1, %3
%elifid %2
    pxor    %1, %1
    psubw   %1, %2
    pmaxsw  %1, %2
%elif %0 == 2
    pxor    %1, %1
    psubw   %1, %2
    pmaxsw  %1, %2
%else
    mova    %1, %2
    pxor    %3, %3
    psubw   %3, %1
    pmaxsw  %1, %3
%endif
%endmacro

%macro ABSW2 6 ; dst1, dst2, src1, src2, tmp, tmp
%if cpuflag(ssse3)
    pabsw   %1, %3
    pabsw   %2, %4
%elifidn %1, %3
    pxor    %5, %5
    pxor    %6, %6
    psubw   %5, %1
    psubw   %6, %2
    pmaxsw  %1, %5
    pmaxsw  %2, %6
%else
    pxor    %1, %1
    pxor    %2, %2
    psubw   %1, %3
    psubw   %2, %4
    pmaxsw  %1, %3
    pmaxsw  %2, %4
%endif
%endmacro

%macro ABSB 2
%if cpuflag(ssse3)
    pabsb   %1, %1
%else
    pxor    %2, %2
    psubb   %2, %1
    pminub  %1, %2
%endif
%endmacro

%macro ABSD 2-3
%if cpuflag(ssse3)
    pabsd   %1, %2
%else
    %define %%s %2
%if %0 == 3
    mova    %3, %2
    %define %%s %3
%endif
    pxor     %1, %1
    pcmpgtd  %1, %%s
    pxor    %%s, %1
    psubd   %%s, %1
    SWAP     %1, %%s
%endif
%endmacro

%macro PSIGN 3-4
%if cpuflag(ssse3) && %0 == 4
    psign%1 %2, %3, %4
%elif cpuflag(ssse3)
    psign%1 %2, %3
%elif %0 == 4
    pxor    %2, %3, %4
    psub%1  %2, %4
%else
    pxor    %2, %3
    psub%1  %2, %3
%endif
%endmacro

%define PSIGNW PSIGN w,
%define PSIGND PSIGN d,

%macro SPLATB_LOAD 3
%if cpuflag(ssse3)
    movd      %1, [%2-3]
    pshufb    %1, %3
%else
    movd      %1, [%2-3] ;to avoid crossing a cacheline
    punpcklbw %1, %1
    SPLATW    %1, %1, 3
%endif
%endmacro

%imacro SPLATW 2-3 0
%if cpuflag(avx2) && %3 == 0
    vpbroadcastw %1, %2
%else
    PSHUFLW      %1, %2, (%3)*q1111
%if mmsize == 16
    punpcklqdq   %1, %1
%endif
%endif
%endmacro

%imacro SPLATD 2-3 0
%if mmsize == 16
    pshufd %1, %2, (%3)*q1111
%else
    pshufw %1, %2, (%3)*q0101 + ((%3)+1)*q1010
%endif
%endmacro

%macro CLIPW 3 ;(dst, min, max)
    pmaxsw %1, %2
    pminsw %1, %3
%endmacro

%macro CLIPW2 4 ;(dst0, dst1, min, max)
    pmaxsw %1, %3
    pmaxsw %2, %3
    pminsw %1, %4
    pminsw %2, %4
%endmacro

%macro HADDD 2 ; sum junk
%if sizeof%1 == 32
%define %2 xmm%2
    vextracti128 %2, %1, 1
%define %1 xmm%1
    paddd   %1, %2
%endif
%if mmsize >= 16
%if cpuflag(xop) && sizeof%1 == 16
    vphadddq %1, %1
%endif
    movhlps %2, %1
    paddd   %1, %2
%endif
%if notcpuflag(xop)
    PSHUFLW %2, %1, q0032
    paddd   %1, %2
%endif
%undef %1
%undef %2
%endmacro

%macro HADDW 2 ; reg, tmp
%if cpuflag(xop) && sizeof%1 == 16
    vphaddwq  %1, %1
    movhlps   %2, %1
    paddd     %1, %2
%else
    pmaddwd %1, [pw_1]
    HADDD   %1, %2
%endif
%endmacro

%macro HADDUWD 2
%if cpuflag(xop) && sizeof%1 == 16
    vphadduwd %1, %1
%else
    psrld %2, %1, 16
    pslld %1, 16
    psrld %1, 16
    paddd %1, %2
%endif
%endmacro

%macro HADDUW 2
%if cpuflag(xop) && sizeof%1 == 16
    vphadduwq %1, %1
    movhlps   %2, %1
    paddd     %1, %2
%else
    HADDUWD   %1, %2
    HADDD     %1, %2
%endif
%endmacro

%macro PALIGNR 4-5 ; [dst,] src1, src2, imm, tmp
; AVX2 version uses a precalculated extra input that
; can be re-used across calls
%if sizeof%1==32
                                 ; %3 = abcdefgh ijklmnop (lower address)
                                 ; %2 = ABCDEFGH IJKLMNOP (higher address)
;   vperm2i128 %5, %2, %3, q0003 ; %5 = ijklmnop ABCDEFGH
%if %4 < 16
    palignr    %1, %5, %3, %4    ; %1 = bcdefghi jklmnopA
%else
    palignr    %1, %2, %5, %4-16 ; %1 = pABCDEFG HIJKLMNO
%endif
%elif cpuflag(ssse3)
    %if %0==5
        palignr %1, %2, %3, %4
    %else
        palignr %1, %2, %3
    %endif
%else
    %define %%dst %1
    %if %0==5
        %ifnidn %1, %2
            mova %%dst, %2
        %endif
        %rotate 1
    %endif
    %ifnidn %4, %2
        mova %4, %2
    %endif
    %if mmsize==8
        psllq  %%dst, (8-%3)*8
        psrlq  %4, %3*8
    %else
        pslldq %%dst, 16-%3
        psrldq %4, %3
    %endif
    por %%dst, %4
%endif
%endmacro

%macro PSHUFLW 1+
    %if mmsize == 8
        pshufw %1
    %else
        pshuflw %1
    %endif
%endmacro

; shift a mmxreg by n bytes, or a xmmreg by 2*n bytes
; values shifted in are undefined
; faster if dst==src
%define PSLLPIX PSXLPIX l, -1, ;dst, src, shift
%define PSRLPIX PSXLPIX r,  1, ;dst, src, shift
%macro PSXLPIX 5
    %if mmsize == 8
        %if %5&1
            ps%1lq %3, %4, %5*8
        %else
            pshufw %3, %4, (q3210<<8>>(8+%2*%5))&0xff
        %endif
    %else
        ps%1ldq %3, %4, %5*2
    %endif
%endmacro

%macro DEINTB 5 ; mask, reg1, mask, reg2, optional src to fill masks from
%ifnum %5
    pand   m%3, m%5, m%4 ; src .. y6 .. y4
    pand   m%1, m%5, m%2 ; dst .. y6 .. y4
%else
    mova   m%1, %5
    pand   m%3, m%1, m%4 ; src .. y6 .. y4
    pand   m%1, m%1, m%2 ; dst .. y6 .. y4
%endif
    psrlw  m%2, 8        ; dst .. y7 .. y5
    psrlw  m%4, 8        ; src .. y7 .. y5
%endmacro

%macro SUMSUB_BA 3-4
%if %0==3
    padd%1  m%2, m%3
    padd%1  m%3, m%3
    psub%1  m%3, m%2
%elif avx_enabled
    padd%1  m%4, m%2, m%3
    psub%1  m%3, m%2
    SWAP    %2, %4
%else
    mova    m%4, m%2
    padd%1  m%2, m%3
    psub%1  m%3, m%4
%endif
%endmacro

%macro SUMSUB_BADC 5-6
%if %0==6
    SUMSUB_BA %1, %2, %3, %6
    SUMSUB_BA %1, %4, %5, %6
%else
    padd%1  m%2, m%3
    padd%1  m%4, m%5
    padd%1  m%3, m%3
    padd%1  m%5, m%5
    psub%1  m%3, m%2
    psub%1  m%5, m%4
%endif
%endmacro

%macro HADAMARD4_V 4+
    SUMSUB_BADC w, %1, %2, %3, %4
    SUMSUB_BADC w, %1, %3, %2, %4
%endmacro

%macro HADAMARD8_V 8+
    SUMSUB_BADC w, %1, %2, %3, %4
    SUMSUB_BADC w, %5, %6, %7, %8
    SUMSUB_BADC w, %1, %3, %2, %4
    SUMSUB_BADC w, %5, %7, %6, %8
    SUMSUB_BADC w, %1, %5, %2, %6
    SUMSUB_BADC w, %3, %7, %4, %8
%endmacro

%macro TRANS_SSE2 5-6
; TRANSPOSE2x2
; %1: transpose width (d/q) - use SBUTTERFLY qdq for dq
; %2: ord/unord (for compat with sse4, unused)
; %3/%4: source regs
; %5/%6: tmp regs
%ifidn %1, d
%define mask [mask_10]
%define shift 16
%elifidn %1, q
%define mask [mask_1100]
%define shift 32
%endif
%if %0==6 ; less dependency if we have two tmp
    mova   m%5, mask   ; ff00
    mova   m%6, m%4    ; x5x4
    psll%1 m%4, shift  ; x4..
    pand   m%6, m%5    ; x5..
    pandn  m%5, m%3    ; ..x0
    psrl%1 m%3, shift  ; ..x1
    por    m%4, m%5    ; x4x0
    por    m%3, m%6    ; x5x1
%else ; more dependency, one insn less. sometimes faster, sometimes not
    mova   m%5, m%4    ; x5x4
    psll%1 m%4, shift  ; x4..
    pxor   m%4, m%3    ; (x4^x1)x0
    pand   m%4, mask   ; (x4^x1)..
    pxor   m%3, m%4    ; x4x0
    psrl%1 m%4, shift  ; ..(x1^x4)
    pxor   m%5, m%4    ; x5x1
    SWAP   %4, %3, %5
%endif
%endmacro

%macro TRANS_SSE4 5-6 ; see above
%ifidn %1, d
%ifidn %2, ord
    psrl%1  m%5, m%3, 16
    pblendw m%5, m%4, q2222
    psll%1  m%4, 16
    pblendw m%4, m%3, q1111
    SWAP     %3, %5
%else
%if avx_enabled
    pblendw m%5, m%3, m%4, q2222
    SWAP     %3, %5
%else
    mova    m%5, m%3
    pblendw m%3, m%4, q2222
%endif
    psll%1  m%4, 16
    psrl%1  m%5, 16
    por     m%4, m%5
%endif
%elifidn %1, q
    shufps m%5, m%3, m%4, q3131
    shufps m%3, m%3, m%4, q2020
    SWAP    %4, %5
%endif
%endmacro

%macro TRANS_XOP 5-6
%ifidn %1, d
    vpperm m%5, m%3, m%4, [transd_shuf1]
    vpperm m%3, m%3, m%4, [transd_shuf2]
%elifidn %1, q
    shufps m%5, m%3, m%4, q3131
    shufps m%3, m%4, q2020
%endif
    SWAP    %4, %5
%endmacro

%macro HADAMARD 5-6
; %1=distance in words (0 for vertical pass, 1/2/4 for horizontal passes)
; %2=sumsub/max/amax (sum and diff / maximum / maximum of absolutes)
; %3/%4: regs
; %5(%6): tmpregs
%if %1!=0 ; have to reorder stuff for horizontal op
    %ifidn %2, sumsub
        %define ORDER ord
        ; sumsub needs order because a-b != b-a unless a=b
    %else
        %define ORDER unord
        ; if we just max, order doesn't matter (allows pblendw+or in sse4)
    %endif
    %if %1==1
        TRANS d, ORDER, %3, %4, %5, %6
    %elif %1==2
        %if mmsize==8
            SBUTTERFLY dq, %3, %4, %5
        %else
            TRANS q, ORDER, %3, %4, %5, %6
        %endif
    %elif %1==4
        SBUTTERFLY qdq, %3, %4, %5
    %elif %1==8
        SBUTTERFLY dqqq, %3, %4, %5
    %endif
%endif
%ifidn %2, sumsub
    SUMSUB_BA w, %3, %4, %5
%else
    %ifidn %2, amax
        %if %0==6
            ABSW2 m%3, m%4, m%3, m%4, m%5, m%6
        %else
            ABSW m%3, m%3, m%5
            ABSW m%4, m%4, m%5
        %endif
    %endif
    pmaxsw m%3, m%4
%endif
%endmacro


%macro HADAMARD2_2D 6-7 sumsub
    HADAMARD 0, sumsub, %1, %2, %5
    HADAMARD 0, sumsub, %3, %4, %5
    SBUTTERFLY %6, %1, %2, %5
%ifnum %7
    HADAMARD 0, amax, %1, %2, %5, %7
%else
    HADAMARD 0, %7, %1, %2, %5
%endif
    SBUTTERFLY %6, %3, %4, %5
%ifnum %7
    HADAMARD 0, amax, %3, %4, %5, %7
%else
    HADAMARD 0, %7, %3, %4, %5
%endif
%endmacro

%macro HADAMARD4_2D 5-6 sumsub
    HADAMARD2_2D %1, %2, %3, %4, %5, wd
    HADAMARD2_2D %1, %3, %2, %4, %5, dq, %6
    SWAP %2, %3
%endmacro

%macro HADAMARD4_2D_SSE 5-6 sumsub
    HADAMARD  0, sumsub, %1, %2, %5 ; 1st V row 0 + 1
    HADAMARD  0, sumsub, %3, %4, %5 ; 1st V row 2 + 3
    SBUTTERFLY   wd, %1, %2, %5     ; %1: m0 1+0 %2: m1 1+0
    SBUTTERFLY   wd, %3, %4, %5     ; %3: m0 3+2 %4: m1 3+2
    HADAMARD2_2D %1, %3, %2, %4, %5, dq
    SBUTTERFLY  qdq, %1, %2, %5
    HADAMARD  0, %6, %1, %2, %5     ; 2nd H m1/m0 row 0+1
    SBUTTERFLY  qdq, %3, %4, %5
    HADAMARD  0, %6, %3, %4, %5     ; 2nd H m1/m0 row 2+3
%endmacro

%macro HADAMARD8_2D 9-10 sumsub
    HADAMARD2_2D %1, %2, %3, %4, %9, wd
    HADAMARD2_2D %5, %6, %7, %8, %9, wd
    HADAMARD2_2D %1, %3, %2, %4, %9, dq
    HADAMARD2_2D %5, %7, %6, %8, %9, dq
    HADAMARD2_2D %1, %5, %3, %7, %9, qdq, %10
    HADAMARD2_2D %2, %6, %4, %8, %9, qdq, %10
%ifnidn %10, amax
    SWAP %2, %5
    SWAP %4, %7
%endif
%endmacro

; doesn't include the "pmaddubsw hmul_8p" pass
%macro HADAMARD8_2D_HMUL 10
    HADAMARD4_V %1, %2, %3, %4, %9
    HADAMARD4_V %5, %6, %7, %8, %9
    SUMSUB_BADC w, %1, %5, %2, %6, %9
    HADAMARD 2, sumsub, %1, %5, %9, %10
    HADAMARD 2, sumsub, %2, %6, %9, %10
    SUMSUB_BADC w, %3, %7, %4, %8, %9
    HADAMARD 2, sumsub, %3, %7, %9, %10
    HADAMARD 2, sumsub, %4, %8, %9, %10
    HADAMARD 1, amax, %1, %5, %9, %10
    HADAMARD 1, amax, %2, %6, %9, %5
    HADAMARD 1, amax, %3, %7, %9, %5
    HADAMARD 1, amax, %4, %8, %9, %5
%endmacro

%macro SUMSUB2_AB 4
%if cpuflag(xop)
    pmacs%1%1 m%4, m%3, [p%1_m2], m%2
    pmacs%1%1 m%2, m%2, [p%1_2], m%3
%elifnum %3
    psub%1  m%4, m%2, m%3
    psub%1  m%4, m%3
    padd%1  m%2, m%2
    padd%1  m%2, m%3
%else
    mova    m%4, m%2
    padd%1  m%2, m%2
    padd%1  m%2, %3
    psub%1  m%4, %3
    psub%1  m%4, %3
%endif
%endmacro

%macro SUMSUBD2_AB 5
%ifnum %4
    psra%1  m%5, m%2, 1  ; %3: %3>>1
    psra%1  m%4, m%3, 1  ; %2: %2>>1
    padd%1  m%4, m%2     ; %3: %3>>1+%2
    psub%1  m%5, m%3     ; %2: %2>>1-%3
    SWAP     %2, %5
    SWAP     %3, %4
%else
    mova    %5, m%2
    mova    %4, m%3
    psra%1  m%3, 1  ; %3: %3>>1
    psra%1  m%2, 1  ; %2: %2>>1
    padd%1  m%3, %5 ; %3: %3>>1+%2
    psub%1  m%2, %4 ; %2: %2>>1-%3
%endif
%endmacro

%macro DCT4_1D 5
%ifnum %5
    SUMSUB_BADC w, %4, %1, %3, %2, %5
    SUMSUB_BA   w, %3, %4, %5
    SUMSUB2_AB  w, %1, %2, %5
    SWAP %1, %3, %4, %5, %2
%else
    SUMSUB_BADC w, %4, %1, %3, %2
    SUMSUB_BA   w, %3, %4
    mova     [%5], m%2
    SUMSUB2_AB  w, %1, [%5], %2
    SWAP %1, %3, %4, %2
%endif
%endmacro

%macro IDCT4_1D 6-7
%ifnum %6
    SUMSUBD2_AB %1, %3, %5, %7, %6
    ; %3: %3>>1-%5 %5: %3+%5>>1
    SUMSUB_BA   %1, %4, %2, %7
    ; %4: %2+%4 %2: %2-%4
    SUMSUB_BADC %1, %5, %4, %3, %2, %7
    ; %5: %2+%4 + (%3+%5>>1)
    ; %4: %2+%4 - (%3+%5>>1)
    ; %3: %2-%4 + (%3>>1-%5)
    ; %2: %2-%4 - (%3>>1-%5)
%else
%ifidn %1, w
    SUMSUBD2_AB %1, %3, %5, [%6], [%6+16]
%else
    SUMSUBD2_AB %1, %3, %5, [%6], [%6+32]
%endif
    SUMSUB_BA   %1, %4, %2
    SUMSUB_BADC %1, %5, %4, %3, %2
%endif
    SWAP %2, %5, %4
    ; %2: %2+%4 + (%3+%5>>1) row0
    ; %3: %2-%4 + (%3>>1-%5) row1
    ; %4: %2-%4 - (%3>>1-%5) row2
    ; %5: %2+%4 - (%3+%5>>1) row3
%endmacro


%macro LOAD_DIFF 5-6 1
%if HIGH_BIT_DEPTH
%if %6 ; %5 aligned?
    mova       %1, %4
    psubw      %1, %5
%else
    movu       %1, %4
    movu       %2, %5
    psubw      %1, %2
%endif
%else ; !HIGH_BIT_DEPTH
%ifidn %3, none
    movh       %1, %4
    movh       %2, %5
    punpcklbw  %1, %2
    punpcklbw  %2, %2
    psubw      %1, %2
%else
    movh       %1, %4
    punpcklbw  %1, %3
    movh       %2, %5
    punpcklbw  %2, %3
    psubw      %1, %2
%endif
%endif ; HIGH_BIT_DEPTH
%endmacro

%macro LOAD_DIFF8x4 8 ; 4x dst, 1x tmp, 1x mul, 2x ptr
%if BIT_DEPTH == 8 && cpuflag(ssse3)
    movh       m%2, [%8+%1*FDEC_STRIDE]
    movh       m%1, [%7+%1*FENC_STRIDE]
    punpcklbw  m%1, m%2
    movh       m%3, [%8+%2*FDEC_STRIDE]
    movh       m%2, [%7+%2*FENC_STRIDE]
    punpcklbw  m%2, m%3
    movh       m%4, [%8+%3*FDEC_STRIDE]
    movh       m%3, [%7+%3*FENC_STRIDE]
    punpcklbw  m%3, m%4
    movh       m%5, [%8+%4*FDEC_STRIDE]
    movh       m%4, [%7+%4*FENC_STRIDE]
    punpcklbw  m%4, m%5
    pmaddubsw  m%1, m%6
    pmaddubsw  m%2, m%6
    pmaddubsw  m%3, m%6
    pmaddubsw  m%4, m%6
%else
    LOAD_DIFF  m%1, m%5, m%6, [%7+%1*FENC_STRIDEB], [%8+%1*FDEC_STRIDEB]
    LOAD_DIFF  m%2, m%5, m%6, [%7+%2*FENC_STRIDEB], [%8+%2*FDEC_STRIDEB]
    LOAD_DIFF  m%3, m%5, m%6, [%7+%3*FENC_STRIDEB], [%8+%3*FDEC_STRIDEB]
    LOAD_DIFF  m%4, m%5, m%6, [%7+%4*FENC_STRIDEB], [%8+%4*FDEC_STRIDEB]
%endif
%endmacro

%macro STORE_DCT 6
    movq   [%5+%6+ 0], m%1
    movq   [%5+%6+ 8], m%2
    movq   [%5+%6+16], m%3
    movq   [%5+%6+24], m%4
    movhps [%5+%6+32], m%1
    movhps [%5+%6+40], m%2
    movhps [%5+%6+48], m%3
    movhps [%5+%6+56], m%4
%endmacro

%macro STORE_IDCT 4
    movhps [r0-4*FDEC_STRIDE], %1
    movh   [r0-3*FDEC_STRIDE], %1
    movhps [r0-2*FDEC_STRIDE], %2
    movh   [r0-1*FDEC_STRIDE], %2
    movhps [r0+0*FDEC_STRIDE], %3
    movh   [r0+1*FDEC_STRIDE], %3
    movhps [r0+2*FDEC_STRIDE], %4
    movh   [r0+3*FDEC_STRIDE], %4
%endmacro

%macro LOAD_DIFF_8x4P 7-11 r0,r2,0,1 ; 4x dest, 2x temp, 2x pointer, increment, aligned?
    LOAD_DIFF m%1, m%5, m%7, [%8],      [%9],      %11
    LOAD_DIFF m%2, m%6, m%7, [%8+r1],   [%9+r3],   %11
    LOAD_DIFF m%3, m%5, m%7, [%8+2*r1], [%9+2*r3], %11
    LOAD_DIFF m%4, m%6, m%7, [%8+r4],   [%9+r5],   %11
%if %10
    lea %8, [%8+4*r1]
    lea %9, [%9+4*r3]
%endif
%endmacro

; 2xdst, 2xtmp, 2xsrcrow
%macro LOAD_DIFF16x2_AVX2 6
    pmovzxbw m%1, [r1+%5*FENC_STRIDE]
    pmovzxbw m%2, [r1+%6*FENC_STRIDE]
    pmovzxbw m%3, [r2+(%5-4)*FDEC_STRIDE]
    pmovzxbw m%4, [r2+(%6-4)*FDEC_STRIDE]
    psubw    m%1, m%3
    psubw    m%2, m%4
%endmacro

%macro DIFFx2 6-7
    movh       %3, %5
    punpcklbw  %3, %4
    psraw      %1, 6
    paddsw     %1, %3
    movh       %3, %6
    punpcklbw  %3, %4
    psraw      %2, 6
    paddsw     %2, %3
    packuswb   %2, %1
%endmacro

; (high depth) in: %1, %2, min to clip, max to clip, mem128
; in: %1, tmp, %3, mem64
%macro STORE_DIFF 4-5
%if HIGH_BIT_DEPTH
    psrad      %1, 6
    psrad      %2, 6
    packssdw   %1, %2
    paddw      %1, %5
    CLIPW      %1, %3, %4
    mova       %5, %1
%else
    movh       %2, %4
    punpcklbw  %2, %3
    psraw      %1, 6
    paddsw     %1, %2
    packuswb   %1, %1
    movh       %4, %1
%endif
%endmacro

%macro SHUFFLE_MASK_W 8
    %rep 8
        %if %1>=0x80
            db %1, %1
        %else
            db %1*2
            db %1*2+1
        %endif
        %rotate 1
    %endrep
%endmacro

; instruction, accum, input, iteration (zero to swap, nonzero to add)
%macro ACCUM 4
%if %4
    %1        m%2, m%3
%else
    SWAP       %2, %3
%endif
%endmacro

; IACA support
%macro IACA_START 0
    mov ebx, 111
    db 0x64, 0x67, 0x90
%endmacro

%macro IACA_END 0
    mov ebx, 222
    db 0x64, 0x67, 0x90
%endmacro
Commit	Line	Data
	1	;*****************************************************************************
	2	;* x86util.asm: x86 utility macros
	3	;*****************************************************************************
	4	;* Copyright (C) 2008-2013 x264 project
	5	;*
	6	;* Authors: Holger Lubitz <holger@lubitz.org>
	7	;* Loren Merritt <lorenm@u.washington.edu>
	8	;*
	9	;* This program is free software; you can redistribute it and/or modify
	10	;* it under the terms of the GNU General Public License as published by
	11	;* the Free Software Foundation; either version 2 of the License, or
	12	;* (at your option) any later version.
	13	;*
	14	;* This program is distributed in the hope that it will be useful,
	15	;* but WITHOUT ANY WARRANTY; without even the implied warranty of
	16	;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the
	17	;* GNU General Public License for more details.
	18	;*
	19	;* You should have received a copy of the GNU General Public License
	20	;* along with this program; if not, write to the Free Software
	21	;* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02111, USA.
	22	;*
	23	;* This program is also available under a commercial proprietary license.
	24	;* For more information, contact us at license @ x265.com.
	25	;*****************************************************************************
	26
	27	%assign FENC_STRIDE 64
	28	%assign FDEC_STRIDE 32
	29
	30	%assign SIZEOF_PIXEL 1
	31	%assign SIZEOF_DCTCOEF 2
	32	%define pixel byte
	33	%define vpbroadcastdct vpbroadcastw
	34	%define vpbroadcastpix vpbroadcastb
	35	%if HIGH_BIT_DEPTH
	36	%assign SIZEOF_PIXEL 2
	37	%assign SIZEOF_DCTCOEF 4
	38	%define pixel word
	39	%define vpbroadcastdct vpbroadcastd
	40	%define vpbroadcastpix vpbroadcastw
	41	%endif
	42
	43	%assign FENC_STRIDEB SIZEOF_PIXEL*FENC_STRIDE
	44	%assign FDEC_STRIDEB SIZEOF_PIXEL*FDEC_STRIDE
	45
	46	%assign PIXEL_MAX ((1 << BIT_DEPTH)-1)
	47
	48	%macro FIX_STRIDES 1-*
	49	%if HIGH_BIT_DEPTH
	50	%rep %0
	51	add %1, %1
	52	%rotate 1
	53	%endrep
	54	%endif
	55	%endmacro
	56
	57
	58	%macro SBUTTERFLY 4
	59	%ifidn %1, dqqq
	60	vperm2i128 m%4, m%2, m%3, q0301 ; punpckh
	61	vinserti128 m%2, m%2, xm%3, 1 ; punpckl
	62	%elif avx_enabled && mmsize >= 16
	63	punpckh%1 m%4, m%2, m%3
	64	punpckl%1 m%2, m%3
	65	%else
	66	mova m%4, m%2
	67	punpckl%1 m%2, m%3
	68	punpckh%1 m%4, m%3
	69	%endif
	70	SWAP %3, %4
	71	%endmacro
	72
	73	%macro SBUTTERFLY2 4
	74	punpckl%1 m%4, m%2, m%3
	75	punpckh%1 m%2, m%2, m%3
	76	SWAP %2, %4, %3
	77	%endmacro
	78
	79	%macro TRANSPOSE4x4W 5
	80	SBUTTERFLY wd, %1, %2, %5
	81	SBUTTERFLY wd, %3, %4, %5
	82	SBUTTERFLY dq, %1, %3, %5
	83	SBUTTERFLY dq, %2, %4, %5
	84	SWAP %2, %3
	85	%endmacro
	86
	87	%macro TRANSPOSE2x4x4W 5
	88	SBUTTERFLY wd, %1, %2, %5
	89	SBUTTERFLY wd, %3, %4, %5
	90	SBUTTERFLY dq, %1, %3, %5
	91	SBUTTERFLY dq, %2, %4, %5
	92	SBUTTERFLY qdq, %1, %2, %5
	93	SBUTTERFLY qdq, %3, %4, %5
	94	%endmacro
	95
	96	%macro TRANSPOSE4x4D 5
	97	SBUTTERFLY dq, %1, %2, %5
	98	SBUTTERFLY dq, %3, %4, %5
	99	SBUTTERFLY qdq, %1, %3, %5
	100	SBUTTERFLY qdq, %2, %4, %5
	101	SWAP %2, %3
	102	%endmacro
	103
	104	%macro TRANSPOSE8x8W 9-11
	105	%if ARCH_X86_64
	106	SBUTTERFLY wd, %1, %2, %9
	107	SBUTTERFLY wd, %3, %4, %9
	108	SBUTTERFLY wd, %5, %6, %9
	109	SBUTTERFLY wd, %7, %8, %9
	110	SBUTTERFLY dq, %1, %3, %9
	111	SBUTTERFLY dq, %2, %4, %9
	112	SBUTTERFLY dq, %5, %7, %9
	113	SBUTTERFLY dq, %6, %8, %9
	114	SBUTTERFLY qdq, %1, %5, %9
	115	SBUTTERFLY qdq, %2, %6, %9
	116	SBUTTERFLY qdq, %3, %7, %9
	117	SBUTTERFLY qdq, %4, %8, %9
	118	SWAP %2, %5
	119	SWAP %4, %7
	120	%else
	121	; in: m0..m7, unless %11 in which case m6 is in %9
	122	; out: m0..m7, unless %11 in which case m4 is in %10
	123	; spills into %9 and %10
	124	%if %0<11
	125	movdqa %9, m%7
	126	%endif
	127	SBUTTERFLY wd, %1, %2, %7
	128	movdqa %10, m%2
	129	movdqa m%7, %9
	130	SBUTTERFLY wd, %3, %4, %2
	131	SBUTTERFLY wd, %5, %6, %2
	132	SBUTTERFLY wd, %7, %8, %2
	133	SBUTTERFLY dq, %1, %3, %2
	134	movdqa %9, m%3
	135	movdqa m%2, %10
	136	SBUTTERFLY dq, %2, %4, %3
	137	SBUTTERFLY dq, %5, %7, %3
	138	SBUTTERFLY dq, %6, %8, %3
	139	SBUTTERFLY qdq, %1, %5, %3
	140	SBUTTERFLY qdq, %2, %6, %3
	141	movdqa %10, m%2
	142	movdqa m%3, %9
	143	SBUTTERFLY qdq, %3, %7, %2
	144	SBUTTERFLY qdq, %4, %8, %2
	145	SWAP %2, %5
	146	SWAP %4, %7
	147	%if %0<11
	148	movdqa m%5, %10
	149	%endif
	150	%endif
	151	%endmacro
	152
	153	%macro WIDEN_SXWD 2
	154	punpckhwd m%2, m%1
	155	psrad m%2, 16
	156	%if cpuflag(sse4)
	157	pmovsxwd m%1, m%1
	158	%else
	159	punpcklwd m%1, m%1
	160	psrad m%1, 16
	161	%endif
	162	%endmacro
	163
	164	%macro ABSW 2-3 ; dst, src, tmp (tmp used only if dst==src)
	165	%if cpuflag(ssse3)
	166	pabsw %1, %2
	167	%elifidn %3, sign ; version for pairing with PSIGNW: modifies src
	168	pxor %1, %1
	169	pcmpgtw %1, %2
	170	pxor %2, %1
	171	psubw %2, %1
	172	SWAP %1, %2
	173	%elifidn %1, %2
	174	pxor %3, %3
	175	psubw %3, %1
	176	pmaxsw %1, %3
	177	%elifid %2
	178	pxor %1, %1
	179	psubw %1, %2
	180	pmaxsw %1, %2
	181	%elif %0 == 2
	182	pxor %1, %1
	183	psubw %1, %2
	184	pmaxsw %1, %2
	185	%else
	186	mova %1, %2
	187	pxor %3, %3
	188	psubw %3, %1
	189	pmaxsw %1, %3
	190	%endif
	191	%endmacro
	192
	193	%macro ABSW2 6 ; dst1, dst2, src1, src2, tmp, tmp
	194	%if cpuflag(ssse3)
	195	pabsw %1, %3
	196	pabsw %2, %4
	197	%elifidn %1, %3
	198	pxor %5, %5
	199	pxor %6, %6
	200	psubw %5, %1
	201	psubw %6, %2
	202	pmaxsw %1, %5
	203	pmaxsw %2, %6
	204	%else
	205	pxor %1, %1
	206	pxor %2, %2
	207	psubw %1, %3
	208	psubw %2, %4
	209	pmaxsw %1, %3
	210	pmaxsw %2, %4
	211	%endif
	212	%endmacro
	213
	214	%macro ABSB 2
	215	%if cpuflag(ssse3)
	216	pabsb %1, %1
	217	%else
	218	pxor %2, %2
	219	psubb %2, %1
	220	pminub %1, %2
	221	%endif
	222	%endmacro
	223
	224	%macro ABSD 2-3
	225	%if cpuflag(ssse3)
	226	pabsd %1, %2
	227	%else
	228	%define %%s %2
	229	%if %0 == 3
	230	mova %3, %2
	231	%define %%s %3
	232	%endif
	233	pxor %1, %1
	234	pcmpgtd %1, %%s
	235	pxor %%s, %1
	236	psubd %%s, %1
	237	SWAP %1, %%s
	238	%endif
	239	%endmacro
	240
	241	%macro PSIGN 3-4
	242	%if cpuflag(ssse3) && %0 == 4
	243	psign%1 %2, %3, %4
	244	%elif cpuflag(ssse3)
	245	psign%1 %2, %3
	246	%elif %0 == 4
	247	pxor %2, %3, %4
	248	psub%1 %2, %4
	249	%else
	250	pxor %2, %3
	251	psub%1 %2, %3
	252	%endif
	253	%endmacro
	254
	255	%define PSIGNW PSIGN w,
	256	%define PSIGND PSIGN d,
	257
	258	%macro SPLATB_LOAD 3
	259	%if cpuflag(ssse3)
	260	movd %1, [%2-3]
	261	pshufb %1, %3
	262	%else
	263	movd %1, [%2-3] ;to avoid crossing a cacheline
	264	punpcklbw %1, %1
	265	SPLATW %1, %1, 3
	266	%endif
	267	%endmacro
	268
	269	%imacro SPLATW 2-3 0
	270	%if cpuflag(avx2) && %3 == 0
	271	vpbroadcastw %1, %2
	272	%else
	273	PSHUFLW %1, %2, (%3)*q1111
	274	%if mmsize == 16
	275	punpcklqdq %1, %1
	276	%endif
	277	%endif
	278	%endmacro
	279
	280	%imacro SPLATD 2-3 0
	281	%if mmsize == 16
	282	pshufd %1, %2, (%3)*q1111
	283	%else
	284	pshufw %1, %2, (%3)q0101 + ((%3)+1)q1010
	285	%endif
	286	%endmacro
	287
	288	%macro CLIPW 3 ;(dst, min, max)
	289	pmaxsw %1, %2
	290	pminsw %1, %3
	291	%endmacro
	292
	293	%macro CLIPW2 4 ;(dst0, dst1, min, max)
	294	pmaxsw %1, %3
	295	pmaxsw %2, %3
	296	pminsw %1, %4
	297	pminsw %2, %4
	298	%endmacro
	299
	300	%macro HADDD 2 ; sum junk
	301	%if sizeof%1 == 32
	302	%define %2 xmm%2
	303	vextracti128 %2, %1, 1
	304	%define %1 xmm%1
	305	paddd %1, %2
	306	%endif
	307	%if mmsize >= 16
	308	%if cpuflag(xop) && sizeof%1 == 16
	309	vphadddq %1, %1
	310	%endif
	311	movhlps %2, %1
	312	paddd %1, %2
	313	%endif
	314	%if notcpuflag(xop)
	315	PSHUFLW %2, %1, q0032
	316	paddd %1, %2
	317	%endif
	318	%undef %1
	319	%undef %2
	320	%endmacro
	321
	322	%macro HADDW 2 ; reg, tmp
	323	%if cpuflag(xop) && sizeof%1 == 16
	324	vphaddwq %1, %1
	325	movhlps %2, %1
	326	paddd %1, %2
	327	%else
	328	pmaddwd %1, [pw_1]
	329	HADDD %1, %2
	330	%endif
	331	%endmacro
	332
	333	%macro HADDUWD 2
	334	%if cpuflag(xop) && sizeof%1 == 16
	335	vphadduwd %1, %1
	336	%else
	337	psrld %2, %1, 16
	338	pslld %1, 16
	339	psrld %1, 16
	340	paddd %1, %2
	341	%endif
	342	%endmacro
	343
	344	%macro HADDUW 2
	345	%if cpuflag(xop) && sizeof%1 == 16
	346	vphadduwq %1, %1
	347	movhlps %2, %1
	348	paddd %1, %2
	349	%else
	350	HADDUWD %1, %2
	351	HADDD %1, %2
	352	%endif
	353	%endmacro
	354
	355	%macro PALIGNR 4-5 ; [dst,] src1, src2, imm, tmp
	356	; AVX2 version uses a precalculated extra input that
	357	; can be re-used across calls
	358	%if sizeof%1==32
	359	; %3 = abcdefgh ijklmnop (lower address)
	360	; %2 = ABCDEFGH IJKLMNOP (higher address)
	361	; vperm2i128 %5, %2, %3, q0003 ; %5 = ijklmnop ABCDEFGH
	362	%if %4 < 16
	363	palignr %1, %5, %3, %4 ; %1 = bcdefghi jklmnopA
	364	%else
	365	palignr %1, %2, %5, %4-16 ; %1 = pABCDEFG HIJKLMNO
	366	%endif
	367	%elif cpuflag(ssse3)
	368	%if %0==5
	369	palignr %1, %2, %3, %4
	370	%else
	371	palignr %1, %2, %3
	372	%endif
	373	%else
	374	%define %%dst %1
	375	%if %0==5
	376	%ifnidn %1, %2
	377	mova %%dst, %2
	378	%endif
	379	%rotate 1
	380	%endif
	381	%ifnidn %4, %2
	382	mova %4, %2
	383	%endif
	384	%if mmsize==8
	385	psllq %%dst, (8-%3)*8
	386	psrlq %4, %3*8
	387	%else
	388	pslldq %%dst, 16-%3
	389	psrldq %4, %3
	390	%endif
	391	por %%dst, %4
	392	%endif
	393	%endmacro
	394
	395	%macro PSHUFLW 1+
	396	%if mmsize == 8
	397	pshufw %1
	398	%else
	399	pshuflw %1
	400	%endif
	401	%endmacro
	402
	403	; shift a mmxreg by n bytes, or a xmmreg by 2*n bytes
	404	; values shifted in are undefined
	405	; faster if dst==src
	406	%define PSLLPIX PSXLPIX l, -1, ;dst, src, shift
	407	%define PSRLPIX PSXLPIX r, 1, ;dst, src, shift
	408	%macro PSXLPIX 5
	409	%if mmsize == 8
	410	%if %5&1
	411	ps%1lq %3, %4, %5*8
	412	%else
	413	pshufw %3, %4, (q3210<<8>>(8+%2*%5))&0xff
	414	%endif
	415	%else
	416	ps%1ldq %3, %4, %5*2
	417	%endif
	418	%endmacro
	419
	420	%macro DEINTB 5 ; mask, reg1, mask, reg2, optional src to fill masks from
	421	%ifnum %5
	422	pand m%3, m%5, m%4 ; src .. y6 .. y4
	423	pand m%1, m%5, m%2 ; dst .. y6 .. y4
	424	%else
	425	mova m%1, %5
	426	pand m%3, m%1, m%4 ; src .. y6 .. y4
	427	pand m%1, m%1, m%2 ; dst .. y6 .. y4
	428	%endif
	429	psrlw m%2, 8 ; dst .. y7 .. y5
	430	psrlw m%4, 8 ; src .. y7 .. y5
	431	%endmacro
	432
	433	%macro SUMSUB_BA 3-4
	434	%if %0==3
	435	padd%1 m%2, m%3
	436	padd%1 m%3, m%3
	437	psub%1 m%3, m%2
	438	%elif avx_enabled
	439	padd%1 m%4, m%2, m%3
	440	psub%1 m%3, m%2
	441	SWAP %2, %4
	442	%else
	443	mova m%4, m%2
	444	padd%1 m%2, m%3
	445	psub%1 m%3, m%4
	446	%endif
	447	%endmacro
	448
	449	%macro SUMSUB_BADC 5-6
	450	%if %0==6
	451	SUMSUB_BA %1, %2, %3, %6
	452	SUMSUB_BA %1, %4, %5, %6
	453	%else
	454	padd%1 m%2, m%3
	455	padd%1 m%4, m%5
	456	padd%1 m%3, m%3
	457	padd%1 m%5, m%5
	458	psub%1 m%3, m%2
	459	psub%1 m%5, m%4
	460	%endif
	461	%endmacro
	462
	463	%macro HADAMARD4_V 4+
	464	SUMSUB_BADC w, %1, %2, %3, %4
	465	SUMSUB_BADC w, %1, %3, %2, %4
	466	%endmacro
	467
	468	%macro HADAMARD8_V 8+
	469	SUMSUB_BADC w, %1, %2, %3, %4
	470	SUMSUB_BADC w, %5, %6, %7, %8
	471	SUMSUB_BADC w, %1, %3, %2, %4
	472	SUMSUB_BADC w, %5, %7, %6, %8
	473	SUMSUB_BADC w, %1, %5, %2, %6
	474	SUMSUB_BADC w, %3, %7, %4, %8
	475	%endmacro
	476
	477	%macro TRANS_SSE2 5-6
	478	; TRANSPOSE2x2
	479	; %1: transpose width (d/q) - use SBUTTERFLY qdq for dq
	480	; %2: ord/unord (for compat with sse4, unused)
	481	; %3/%4: source regs
	482	; %5/%6: tmp regs
	483	%ifidn %1, d
	484	%define mask [mask_10]
	485	%define shift 16
	486	%elifidn %1, q
	487	%define mask [mask_1100]
	488	%define shift 32
	489	%endif
	490	%if %0==6 ; less dependency if we have two tmp
	491	mova m%5, mask ; ff00
	492	mova m%6, m%4 ; x5x4
	493	psll%1 m%4, shift ; x4..
	494	pand m%6, m%5 ; x5..
	495	pandn m%5, m%3 ; ..x0
	496	psrl%1 m%3, shift ; ..x1
	497	por m%4, m%5 ; x4x0
	498	por m%3, m%6 ; x5x1
	499	%else ; more dependency, one insn less. sometimes faster, sometimes not
	500	mova m%5, m%4 ; x5x4
	501	psll%1 m%4, shift ; x4..
	502	pxor m%4, m%3 ; (x4^x1)x0
	503	pand m%4, mask ; (x4^x1)..
	504	pxor m%3, m%4 ; x4x0
	505	psrl%1 m%4, shift ; ..(x1^x4)
	506	pxor m%5, m%4 ; x5x1
	507	SWAP %4, %3, %5
	508	%endif
	509	%endmacro
	510
	511	%macro TRANS_SSE4 5-6 ; see above
	512	%ifidn %1, d
	513	%ifidn %2, ord
	514	psrl%1 m%5, m%3, 16
	515	pblendw m%5, m%4, q2222
	516	psll%1 m%4, 16
	517	pblendw m%4, m%3, q1111
	518	SWAP %3, %5
	519	%else
	520	%if avx_enabled
	521	pblendw m%5, m%3, m%4, q2222
	522	SWAP %3, %5
	523	%else
	524	mova m%5, m%3
	525	pblendw m%3, m%4, q2222
	526	%endif
	527	psll%1 m%4, 16
	528	psrl%1 m%5, 16
	529	por m%4, m%5
	530	%endif
	531	%elifidn %1, q
	532	shufps m%5, m%3, m%4, q3131
	533	shufps m%3, m%3, m%4, q2020
	534	SWAP %4, %5
	535	%endif
	536	%endmacro
	537
	538	%macro TRANS_XOP 5-6
	539	%ifidn %1, d
	540	vpperm m%5, m%3, m%4, [transd_shuf1]
	541	vpperm m%3, m%3, m%4, [transd_shuf2]
	542	%elifidn %1, q
	543	shufps m%5, m%3, m%4, q3131
	544	shufps m%3, m%4, q2020
	545	%endif
	546	SWAP %4, %5
	547	%endmacro
	548
	549	%macro HADAMARD 5-6
	550	; %1=distance in words (0 for vertical pass, 1/2/4 for horizontal passes)
	551	; %2=sumsub/max/amax (sum and diff / maximum / maximum of absolutes)
	552	; %3/%4: regs
	553	; %5(%6): tmpregs
	554	%if %1!=0 ; have to reorder stuff for horizontal op
	555	%ifidn %2, sumsub
	556	%define ORDER ord
	557	; sumsub needs order because a-b != b-a unless a=b
	558	%else
	559	%define ORDER unord
	560	; if we just max, order doesn't matter (allows pblendw+or in sse4)
	561	%endif
	562	%if %1==1
	563	TRANS d, ORDER, %3, %4, %5, %6
	564	%elif %1==2
	565	%if mmsize==8
	566	SBUTTERFLY dq, %3, %4, %5
	567	%else
	568	TRANS q, ORDER, %3, %4, %5, %6
	569	%endif
	570	%elif %1==4
	571	SBUTTERFLY qdq, %3, %4, %5
	572	%elif %1==8
	573	SBUTTERFLY dqqq, %3, %4, %5
	574	%endif
	575	%endif
	576	%ifidn %2, sumsub
	577	SUMSUB_BA w, %3, %4, %5
	578	%else
	579	%ifidn %2, amax
	580	%if %0==6
	581	ABSW2 m%3, m%4, m%3, m%4, m%5, m%6
	582	%else
	583	ABSW m%3, m%3, m%5
	584	ABSW m%4, m%4, m%5
	585	%endif
	586	%endif
	587	pmaxsw m%3, m%4
	588	%endif
	589	%endmacro
	590
	591
	592	%macro HADAMARD2_2D 6-7 sumsub
	593	HADAMARD 0, sumsub, %1, %2, %5
	594	HADAMARD 0, sumsub, %3, %4, %5
	595	SBUTTERFLY %6, %1, %2, %5
	596	%ifnum %7
	597	HADAMARD 0, amax, %1, %2, %5, %7
	598	%else
	599	HADAMARD 0, %7, %1, %2, %5
	600	%endif
	601	SBUTTERFLY %6, %3, %4, %5
	602	%ifnum %7
	603	HADAMARD 0, amax, %3, %4, %5, %7
	604	%else
	605	HADAMARD 0, %7, %3, %4, %5
	606	%endif
	607	%endmacro
	608
	609	%macro HADAMARD4_2D 5-6 sumsub
	610	HADAMARD2_2D %1, %2, %3, %4, %5, wd
	611	HADAMARD2_2D %1, %3, %2, %4, %5, dq, %6
	612	SWAP %2, %3
	613	%endmacro
	614
	615	%macro HADAMARD4_2D_SSE 5-6 sumsub
	616	HADAMARD 0, sumsub, %1, %2, %5 ; 1st V row 0 + 1
	617	HADAMARD 0, sumsub, %3, %4, %5 ; 1st V row 2 + 3
	618	SBUTTERFLY wd, %1, %2, %5 ; %1: m0 1+0 %2: m1 1+0
	619	SBUTTERFLY wd, %3, %4, %5 ; %3: m0 3+2 %4: m1 3+2
	620	HADAMARD2_2D %1, %3, %2, %4, %5, dq
	621	SBUTTERFLY qdq, %1, %2, %5
	622	HADAMARD 0, %6, %1, %2, %5 ; 2nd H m1/m0 row 0+1
	623	SBUTTERFLY qdq, %3, %4, %5
	624	HADAMARD 0, %6, %3, %4, %5 ; 2nd H m1/m0 row 2+3
	625	%endmacro
	626
	627	%macro HADAMARD8_2D 9-10 sumsub
	628	HADAMARD2_2D %1, %2, %3, %4, %9, wd
	629	HADAMARD2_2D %5, %6, %7, %8, %9, wd
	630	HADAMARD2_2D %1, %3, %2, %4, %9, dq
	631	HADAMARD2_2D %5, %7, %6, %8, %9, dq
	632	HADAMARD2_2D %1, %5, %3, %7, %9, qdq, %10
	633	HADAMARD2_2D %2, %6, %4, %8, %9, qdq, %10
	634	%ifnidn %10, amax
	635	SWAP %2, %5
	636	SWAP %4, %7
	637	%endif
	638	%endmacro
	639
	640	; doesn't include the "pmaddubsw hmul_8p" pass
	641	%macro HADAMARD8_2D_HMUL 10
	642	HADAMARD4_V %1, %2, %3, %4, %9
	643	HADAMARD4_V %5, %6, %7, %8, %9
	644	SUMSUB_BADC w, %1, %5, %2, %6, %9
	645	HADAMARD 2, sumsub, %1, %5, %9, %10
	646	HADAMARD 2, sumsub, %2, %6, %9, %10
	647	SUMSUB_BADC w, %3, %7, %4, %8, %9
	648	HADAMARD 2, sumsub, %3, %7, %9, %10
	649	HADAMARD 2, sumsub, %4, %8, %9, %10
	650	HADAMARD 1, amax, %1, %5, %9, %10
	651	HADAMARD 1, amax, %2, %6, %9, %5
	652	HADAMARD 1, amax, %3, %7, %9, %5
	653	HADAMARD 1, amax, %4, %8, %9, %5
	654	%endmacro
	655
	656	%macro SUMSUB2_AB 4
	657	%if cpuflag(xop)
	658	pmacs%1%1 m%4, m%3, [p%1_m2], m%2
	659	pmacs%1%1 m%2, m%2, [p%1_2], m%3
	660	%elifnum %3
	661	psub%1 m%4, m%2, m%3
	662	psub%1 m%4, m%3
	663	padd%1 m%2, m%2
	664	padd%1 m%2, m%3
	665	%else
	666	mova m%4, m%2
	667	padd%1 m%2, m%2
	668	padd%1 m%2, %3
	669	psub%1 m%4, %3
	670	psub%1 m%4, %3
	671	%endif
	672	%endmacro
	673
	674	%macro SUMSUBD2_AB 5
	675	%ifnum %4
	676	psra%1 m%5, m%2, 1 ; %3: %3>>1
	677	psra%1 m%4, m%3, 1 ; %2: %2>>1
	678	padd%1 m%4, m%2 ; %3: %3>>1+%2
	679	psub%1 m%5, m%3 ; %2: %2>>1-%3
	680	SWAP %2, %5
	681	SWAP %3, %4
	682	%else
	683	mova %5, m%2
	684	mova %4, m%3
	685	psra%1 m%3, 1 ; %3: %3>>1
	686	psra%1 m%2, 1 ; %2: %2>>1
	687	padd%1 m%3, %5 ; %3: %3>>1+%2
	688	psub%1 m%2, %4 ; %2: %2>>1-%3
	689	%endif
	690	%endmacro
	691
	692	%macro DCT4_1D 5
	693	%ifnum %5
	694	SUMSUB_BADC w, %4, %1, %3, %2, %5
	695	SUMSUB_BA w, %3, %4, %5
	696	SUMSUB2_AB w, %1, %2, %5
	697	SWAP %1, %3, %4, %5, %2
	698	%else
	699	SUMSUB_BADC w, %4, %1, %3, %2
	700	SUMSUB_BA w, %3, %4
	701	mova [%5], m%2
	702	SUMSUB2_AB w, %1, [%5], %2
	703	SWAP %1, %3, %4, %2
	704	%endif
	705	%endmacro
	706
	707	%macro IDCT4_1D 6-7
	708	%ifnum %6
	709	SUMSUBD2_AB %1, %3, %5, %7, %6
	710	; %3: %3>>1-%5 %5: %3+%5>>1
	711	SUMSUB_BA %1, %4, %2, %7
	712	; %4: %2+%4 %2: %2-%4
	713	SUMSUB_BADC %1, %5, %4, %3, %2, %7
	714	; %5: %2+%4 + (%3+%5>>1)
	715	; %4: %2+%4 - (%3+%5>>1)
	716	; %3: %2-%4 + (%3>>1-%5)
	717	; %2: %2-%4 - (%3>>1-%5)
	718	%else
	719	%ifidn %1, w
	720	SUMSUBD2_AB %1, %3, %5, [%6], [%6+16]
	721	%else
	722	SUMSUBD2_AB %1, %3, %5, [%6], [%6+32]
	723	%endif
	724	SUMSUB_BA %1, %4, %2
	725	SUMSUB_BADC %1, %5, %4, %3, %2
	726	%endif
	727	SWAP %2, %5, %4
	728	; %2: %2+%4 + (%3+%5>>1) row0
	729	; %3: %2-%4 + (%3>>1-%5) row1
	730	; %4: %2-%4 - (%3>>1-%5) row2
	731	; %5: %2+%4 - (%3+%5>>1) row3
	732	%endmacro
	733
	734
	735	%macro LOAD_DIFF 5-6 1
	736	%if HIGH_BIT_DEPTH
	737	%if %6 ; %5 aligned?
	738	mova %1, %4
	739	psubw %1, %5
	740	%else
	741	movu %1, %4
	742	movu %2, %5
	743	psubw %1, %2
	744	%endif
	745	%else ; !HIGH_BIT_DEPTH
	746	%ifidn %3, none
	747	movh %1, %4
	748	movh %2, %5
	749	punpcklbw %1, %2
	750	punpcklbw %2, %2
	751	psubw %1, %2
	752	%else
	753	movh %1, %4
	754	punpcklbw %1, %3
	755	movh %2, %5
	756	punpcklbw %2, %3
	757	psubw %1, %2
	758	%endif
	759	%endif ; HIGH_BIT_DEPTH
	760	%endmacro
	761
	762	%macro LOAD_DIFF8x4 8 ; 4x dst, 1x tmp, 1x mul, 2x ptr
	763	%if BIT_DEPTH == 8 && cpuflag(ssse3)
	764	movh m%2, [%8+%1*FDEC_STRIDE]
	765	movh m%1, [%7+%1*FENC_STRIDE]
	766	punpcklbw m%1, m%2
	767	movh m%3, [%8+%2*FDEC_STRIDE]
	768	movh m%2, [%7+%2*FENC_STRIDE]
	769	punpcklbw m%2, m%3
	770	movh m%4, [%8+%3*FDEC_STRIDE]
	771	movh m%3, [%7+%3*FENC_STRIDE]
	772	punpcklbw m%3, m%4
	773	movh m%5, [%8+%4*FDEC_STRIDE]
	774	movh m%4, [%7+%4*FENC_STRIDE]
	775	punpcklbw m%4, m%5
	776	pmaddubsw m%1, m%6
	777	pmaddubsw m%2, m%6
	778	pmaddubsw m%3, m%6
	779	pmaddubsw m%4, m%6
	780	%else
	781	LOAD_DIFF m%1, m%5, m%6, [%7+%1FENC_STRIDEB], [%8+%1FDEC_STRIDEB]
	782	LOAD_DIFF m%2, m%5, m%6, [%7+%2FENC_STRIDEB], [%8+%2FDEC_STRIDEB]
	783	LOAD_DIFF m%3, m%5, m%6, [%7+%3FENC_STRIDEB], [%8+%3FDEC_STRIDEB]
	784	LOAD_DIFF m%4, m%5, m%6, [%7+%4FENC_STRIDEB], [%8+%4FDEC_STRIDEB]
	785	%endif
	786	%endmacro
	787
	788	%macro STORE_DCT 6
	789	movq [%5+%6+ 0], m%1
	790	movq [%5+%6+ 8], m%2
	791	movq [%5+%6+16], m%3
	792	movq [%5+%6+24], m%4
	793	movhps [%5+%6+32], m%1
	794	movhps [%5+%6+40], m%2
	795	movhps [%5+%6+48], m%3
	796	movhps [%5+%6+56], m%4
	797	%endmacro
	798
	799	%macro STORE_IDCT 4
	800	movhps [r0-4*FDEC_STRIDE], %1
	801	movh [r0-3*FDEC_STRIDE], %1
	802	movhps [r0-2*FDEC_STRIDE], %2
	803	movh [r0-1*FDEC_STRIDE], %2
	804	movhps [r0+0*FDEC_STRIDE], %3
	805	movh [r0+1*FDEC_STRIDE], %3
	806	movhps [r0+2*FDEC_STRIDE], %4
	807	movh [r0+3*FDEC_STRIDE], %4
	808	%endmacro
	809
	810	%macro LOAD_DIFF_8x4P 7-11 r0,r2,0,1 ; 4x dest, 2x temp, 2x pointer, increment, aligned?
	811	LOAD_DIFF m%1, m%5, m%7, [%8], [%9], %11
	812	LOAD_DIFF m%2, m%6, m%7, [%8+r1], [%9+r3], %11
	813	LOAD_DIFF m%3, m%5, m%7, [%8+2r1], [%9+2r3], %11
	814	LOAD_DIFF m%4, m%6, m%7, [%8+r4], [%9+r5], %11
	815	%if %10
	816	lea %8, [%8+4*r1]
	817	lea %9, [%9+4*r3]
	818	%endif
	819	%endmacro
	820
	821	; 2xdst, 2xtmp, 2xsrcrow
	822	%macro LOAD_DIFF16x2_AVX2 6
	823	pmovzxbw m%1, [r1+%5*FENC_STRIDE]
	824	pmovzxbw m%2, [r1+%6*FENC_STRIDE]
	825	pmovzxbw m%3, [r2+(%5-4)*FDEC_STRIDE]
	826	pmovzxbw m%4, [r2+(%6-4)*FDEC_STRIDE]
	827	psubw m%1, m%3
	828	psubw m%2, m%4
	829	%endmacro
	830
	831	%macro DIFFx2 6-7
	832	movh %3, %5
	833	punpcklbw %3, %4
	834	psraw %1, 6
	835	paddsw %1, %3
	836	movh %3, %6
	837	punpcklbw %3, %4
	838	psraw %2, 6
	839	paddsw %2, %3
	840	packuswb %2, %1
	841	%endmacro
	842
	843	; (high depth) in: %1, %2, min to clip, max to clip, mem128
	844	; in: %1, tmp, %3, mem64
	845	%macro STORE_DIFF 4-5
	846	%if HIGH_BIT_DEPTH
	847	psrad %1, 6
	848	psrad %2, 6
	849	packssdw %1, %2
	850	paddw %1, %5
	851	CLIPW %1, %3, %4
	852	mova %5, %1
	853	%else
	854	movh %2, %4
	855	punpcklbw %2, %3
	856	psraw %1, 6
	857	paddsw %1, %2
	858	packuswb %1, %1
	859	movh %4, %1
	860	%endif
	861	%endmacro
	862
	863	%macro SHUFFLE_MASK_W 8
	864	%rep 8
	865	%if %1>=0x80
	866	db %1, %1
	867	%else
	868	db %1*2
	869	db %1*2+1
	870	%endif
	871	%rotate 1
	872	%endrep
	873	%endmacro
	874
	875	; instruction, accum, input, iteration (zero to swap, nonzero to add)
	876	%macro ACCUM 4
	877	%if %4
	878	%1 m%2, m%3
	879	%else
	880	SWAP %2, %3
	881	%endif
	882	%endmacro
	883
	884	; IACA support
	885	%macro IACA_START 0
	886	mov ebx, 111
	887	db 0x64, 0x67, 0x90
	888	%endmacro
	889
	890	%macro IACA_END 0
	891	mov ebx, 222
	892	db 0x64, 0x67, 0x90
	893	%endmacro