[deb_x265.git] / source / common / x86 / x86util.asm

;*****************************************************************************
;* x86util.asm: x86 utility macros
;*****************************************************************************
;* Copyright (C) 2008-2013 x264 project
;*
;* Authors: Holger Lubitz <holger@lubitz.org>
;*          Loren Merritt <lorenm@u.washington.edu>
;*
;* This program is free software; you can redistribute it and/or modify
;* it under the terms of the GNU General Public License as published by
;* the Free Software Foundation; either version 2 of the License, or
;* (at your option) any later version.
;*
;* This program is distributed in the hope that it will be useful,
;* but WITHOUT ANY WARRANTY; without even the implied warranty of
;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
;* GNU General Public License for more details.
;*
;* You should have received a copy of the GNU General Public License
;* along with this program; if not, write to the Free Software
;* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA  02111, USA.
;*
;* This program is also available under a commercial proprietary license.
;* For more information, contact us at license @ x265.com.
;*****************************************************************************

%assign FENC_STRIDE 64
%assign FDEC_STRIDE 32

%assign SIZEOF_PIXEL 1
%assign SIZEOF_DCTCOEF 2
%define pixel byte
%define vpbroadcastdct vpbroadcastw
%define vpbroadcastpix vpbroadcastb
%if HIGH_BIT_DEPTH
    %assign SIZEOF_PIXEL 2
    %assign SIZEOF_DCTCOEF 4
    %define pixel word
    %define vpbroadcastdct vpbroadcastd
    %define vpbroadcastpix vpbroadcastw
%endif

%assign FENC_STRIDEB SIZEOF_PIXEL*FENC_STRIDE
%assign FDEC_STRIDEB SIZEOF_PIXEL*FDEC_STRIDE

%assign PIXEL_MAX ((1 << BIT_DEPTH)-1)

%macro FIX_STRIDES 1-*
%if HIGH_BIT_DEPTH
%rep %0
    add %1, %1
    %rotate 1
%endrep
%endif
%endmacro


%macro SBUTTERFLY 4
%ifidn %1, dqqq
    vperm2i128  m%4, m%2, m%3, q0301 ; punpckh
    vinserti128 m%2, m%2, xm%3, 1    ; punpckl
%elif avx_enabled && mmsize >= 16
    punpckh%1 m%4, m%2, m%3
    punpckl%1 m%2, m%3
%else
    mova      m%4, m%2
    punpckl%1 m%2, m%3
    punpckh%1 m%4, m%3
%endif
    SWAP %3, %4
%endmacro

%macro SBUTTERFLY2 4
    punpckl%1 m%4, m%2, m%3
    punpckh%1 m%2, m%2, m%3
    SWAP %2, %4, %3
%endmacro

%macro TRANSPOSE4x4W 5
    SBUTTERFLY wd, %1, %2, %5
    SBUTTERFLY wd, %3, %4, %5
    SBUTTERFLY dq, %1, %3, %5
    SBUTTERFLY dq, %2, %4, %5
    SWAP %2, %3
%endmacro

%macro TRANSPOSE2x4x4W 5
    SBUTTERFLY wd,  %1, %2, %5
    SBUTTERFLY wd,  %3, %4, %5
    SBUTTERFLY dq,  %1, %3, %5
    SBUTTERFLY dq,  %2, %4, %5
    SBUTTERFLY qdq, %1, %2, %5
    SBUTTERFLY qdq, %3, %4, %5
%endmacro

%macro TRANSPOSE4x4D 5
    SBUTTERFLY dq,  %1, %2, %5
    SBUTTERFLY dq,  %3, %4, %5
    SBUTTERFLY qdq, %1, %3, %5
    SBUTTERFLY qdq, %2, %4, %5
    SWAP %2, %3
%endmacro

%macro TRANSPOSE8x8W 9-11
%if ARCH_X86_64
    SBUTTERFLY wd,  %1, %2, %9
    SBUTTERFLY wd,  %3, %4, %9
    SBUTTERFLY wd,  %5, %6, %9
    SBUTTERFLY wd,  %7, %8, %9
    SBUTTERFLY dq,  %1, %3, %9
    SBUTTERFLY dq,  %2, %4, %9
    SBUTTERFLY dq,  %5, %7, %9
    SBUTTERFLY dq,  %6, %8, %9
    SBUTTERFLY qdq, %1, %5, %9
    SBUTTERFLY qdq, %2, %6, %9
    SBUTTERFLY qdq, %3, %7, %9
    SBUTTERFLY qdq, %4, %8, %9
    SWAP %2, %5
    SWAP %4, %7
%else
; in:  m0..m7, unless %11 in which case m6 is in %9
; out: m0..m7, unless %11 in which case m4 is in %10
; spills into %9 and %10
%if %0<11
    movdqa %9, m%7
%endif
    SBUTTERFLY wd,  %1, %2, %7
    movdqa %10, m%2
    movdqa m%7, %9
    SBUTTERFLY wd,  %3, %4, %2
    SBUTTERFLY wd,  %5, %6, %2
    SBUTTERFLY wd,  %7, %8, %2
    SBUTTERFLY dq,  %1, %3, %2
    movdqa %9, m%3
    movdqa m%2, %10
    SBUTTERFLY dq,  %2, %4, %3
    SBUTTERFLY dq,  %5, %7, %3
    SBUTTERFLY dq,  %6, %8, %3
    SBUTTERFLY qdq, %1, %5, %3
    SBUTTERFLY qdq, %2, %6, %3
    movdqa %10, m%2
    movdqa m%3, %9
    SBUTTERFLY qdq, %3, %7, %2
    SBUTTERFLY qdq, %4, %8, %2
    SWAP %2, %5
    SWAP %4, %7
%if %0<11
    movdqa m%5, %10
%endif
%endif
%endmacro

%macro WIDEN_SXWD 2
    punpckhwd m%2, m%1
    psrad     m%2, 16
%if cpuflag(sse4)
    pmovsxwd  m%1, m%1
%else
    punpcklwd m%1, m%1
    psrad     m%1, 16
%endif
%endmacro

%macro ABSW 2-3 ; dst, src, tmp (tmp used only if dst==src)
%if cpuflag(ssse3)
    pabsw   %1, %2
%elifidn %3, sign ; version for pairing with PSIGNW: modifies src
    pxor    %1, %1
    pcmpgtw %1, %2
    pxor    %2, %1
    psubw   %2, %1
    SWAP    %1, %2
%elifidn %1, %2
    pxor    %3, %3
    psubw   %3, %1
    pmaxsw  %1, %3
%elifid %2
    pxor    %1, %1
    psubw   %1, %2
    pmaxsw  %1, %2
%elif %0 == 2
    pxor    %1, %1
    psubw   %1, %2
    pmaxsw  %1, %2
%else
    mova    %1, %2
    pxor    %3, %3
    psubw   %3, %1
    pmaxsw  %1, %3
%endif
%endmacro

%macro ABSW2 6 ; dst1, dst2, src1, src2, tmp, tmp
%if cpuflag(ssse3)
    pabsw   %1, %3
    pabsw   %2, %4
%elifidn %1, %3
    pxor    %5, %5
    pxor    %6, %6
    psubw   %5, %1
    psubw   %6, %2
    pmaxsw  %1, %5
    pmaxsw  %2, %6
%else
    pxor    %1, %1
    pxor    %2, %2
    psubw   %1, %3
    psubw   %2, %4
    pmaxsw  %1, %3
    pmaxsw  %2, %4
%endif
%endmacro

%macro ABSB 2
%if cpuflag(ssse3)
    pabsb   %1, %1
%else
    pxor    %2, %2
    psubb   %2, %1
    pminub  %1, %2
%endif
%endmacro

%macro ABSD 2-3
%if cpuflag(ssse3)
    pabsd   %1, %2
%else
    %define %%s %2
%if %0 == 3
    mova    %3, %2
    %define %%s %3
%endif
    pxor     %1, %1
    pcmpgtd  %1, %%s
    pxor    %%s, %1
    psubd   %%s, %1
    SWAP     %1, %%s
%endif
%endmacro

%macro PSIGN 3-4
%if cpuflag(ssse3) && %0 == 4
    psign%1 %2, %3, %4
%elif cpuflag(ssse3)
    psign%1 %2, %3
%elif %0 == 4
    pxor    %2, %3, %4
    psub%1  %2, %4
%else
    pxor    %2, %3
    psub%1  %2, %3
%endif
%endmacro

%define PSIGNW PSIGN w,
%define PSIGND PSIGN d,

%macro SPLATB_LOAD 3
%if cpuflag(ssse3)
    movd      %1, [%2-3]
    pshufb    %1, %3
%else
    movd      %1, [%2-3] ;to avoid crossing a cacheline
    punpcklbw %1, %1
    SPLATW    %1, %1, 3
%endif
%endmacro

%imacro SPLATW 2-3 0
%if cpuflag(avx2) && %3 == 0
    vpbroadcastw %1, %2
%else
    PSHUFLW      %1, %2, (%3)*q1111
%if mmsize == 16
    punpcklqdq   %1, %1
%endif
%endif
%endmacro

%imacro SPLATD 2-3 0
%if mmsize == 16
    pshufd %1, %2, (%3)*q1111
%else
    pshufw %1, %2, (%3)*q0101 + ((%3)+1)*q1010
%endif
%endmacro

%macro CLIPW 3 ;(dst, min, max)
    pmaxsw %1, %2
    pminsw %1, %3
%endmacro

%macro CLIPW2 4 ;(dst0, dst1, min, max)
    pmaxsw %1, %3
    pmaxsw %2, %3
    pminsw %1, %4
    pminsw %2, %4
%endmacro

%macro HADDD 2 ; sum junk
%if sizeof%1 == 32
%define %2 xmm%2
    vextracti128 %2, %1, 1
%define %1 xmm%1
    paddd   %1, %2
%endif
%if mmsize >= 16
%if cpuflag(xop) && sizeof%1 == 16
    vphadddq %1, %1
%endif
    movhlps %2, %1
    paddd   %1, %2
%endif
%if notcpuflag(xop)
    PSHUFLW %2, %1, q0032
    paddd   %1, %2
%endif
%undef %1
%undef %2
%endmacro

%macro HADDW 2 ; reg, tmp
%if cpuflag(xop) && sizeof%1 == 16
    vphaddwq  %1, %1
    movhlps   %2, %1
    paddd     %1, %2
%else
    pmaddwd %1, [pw_1]
    HADDD   %1, %2
%endif
%endmacro

%macro HADDUWD 2
%if cpuflag(xop) && sizeof%1 == 16
    vphadduwd %1, %1
%else
    psrld %2, %1, 16
    pslld %1, 16
    psrld %1, 16
    paddd %1, %2
%endif
%endmacro

%macro HADDUW 2
%if cpuflag(xop) && sizeof%1 == 16
    vphadduwq %1, %1
    movhlps   %2, %1
    paddd     %1, %2
%else
    HADDUWD   %1, %2
    HADDD     %1, %2
%endif
%endmacro

%macro PALIGNR 4-5 ; [dst,] src1, src2, imm, tmp
; AVX2 version uses a precalculated extra input that
; can be re-used across calls
%if sizeof%1==32
                                 ; %3 = abcdefgh ijklmnop (lower address)
                                 ; %2 = ABCDEFGH IJKLMNOP (higher address)
;   vperm2i128 %5, %2, %3, q0003 ; %5 = ijklmnop ABCDEFGH
%if %4 < 16
    palignr    %1, %5, %3, %4    ; %1 = bcdefghi jklmnopA
%else
    palignr    %1, %2, %5, %4-16 ; %1 = pABCDEFG HIJKLMNO
%endif
%elif cpuflag(ssse3)
    %if %0==5
        palignr %1, %2, %3, %4
    %else
        palignr %1, %2, %3
    %endif
%else
    %define %%dst %1
    %if %0==5
        %ifnidn %1, %2
            mova %%dst, %2
        %endif
        %rotate 1
    %endif
    %ifnidn %4, %2
        mova %4, %2
    %endif
    %if mmsize==8
        psllq  %%dst, (8-%3)*8
        psrlq  %4, %3*8
    %else
        pslldq %%dst, 16-%3
        psrldq %4, %3
    %endif
    por %%dst, %4
%endif
%endmacro

%macro PSHUFLW 1+
    %if mmsize == 8
        pshufw %1
    %else
        pshuflw %1
    %endif
%endmacro

; shift a mmxreg by n bytes, or a xmmreg by 2*n bytes
; values shifted in are undefined
; faster if dst==src
%define PSLLPIX PSXLPIX l, -1, ;dst, src, shift
%define PSRLPIX PSXLPIX r,  1, ;dst, src, shift
%macro PSXLPIX 5
    %if mmsize == 8
        %if %5&1
            ps%1lq %3, %4, %5*8
        %else
            pshufw %3, %4, (q3210<<8>>(8+%2*%5))&0xff
        %endif
    %else
        ps%1ldq %3, %4, %5*2
    %endif
%endmacro

%macro DEINTB 5 ; mask, reg1, mask, reg2, optional src to fill masks from
%ifnum %5
    pand   m%3, m%5, m%4 ; src .. y6 .. y4
    pand   m%1, m%5, m%2 ; dst .. y6 .. y4
%else
    mova   m%1, %5
    pand   m%3, m%1, m%4 ; src .. y6 .. y4
    pand   m%1, m%1, m%2 ; dst .. y6 .. y4
%endif
    psrlw  m%2, 8        ; dst .. y7 .. y5
    psrlw  m%4, 8        ; src .. y7 .. y5
%endmacro

%macro SUMSUB_BA 3-4
%if %0==3
    padd%1  m%2, m%3
    padd%1  m%3, m%3
    psub%1  m%3, m%2
%elif avx_enabled
    padd%1  m%4, m%2, m%3
    psub%1  m%3, m%2
    SWAP    %2, %4
%else
    mova    m%4, m%2
    padd%1  m%2, m%3
    psub%1  m%3, m%4
%endif
%endmacro

%macro SUMSUB_BADC 5-6
%if %0==6
    SUMSUB_BA %1, %2, %3, %6
    SUMSUB_BA %1, %4, %5, %6
%else
    padd%1  m%2, m%3
    padd%1  m%4, m%5
    padd%1  m%3, m%3
    padd%1  m%5, m%5
    psub%1  m%3, m%2
    psub%1  m%5, m%4
%endif
%endmacro

%macro HADAMARD4_V 4+
    SUMSUB_BADC w, %1, %2, %3, %4
    SUMSUB_BADC w, %1, %3, %2, %4
%endmacro

%macro HADAMARD8_V 8+
    SUMSUB_BADC w, %1, %2, %3, %4
    SUMSUB_BADC w, %5, %6, %7, %8
    SUMSUB_BADC w, %1, %3, %2, %4
    SUMSUB_BADC w, %5, %7, %6, %8
    SUMSUB_BADC w, %1, %5, %2, %6
    SUMSUB_BADC w, %3, %7, %4, %8
%endmacro

%macro TRANS_SSE2 5-6
; TRANSPOSE2x2
; %1: transpose width (d/q) - use SBUTTERFLY qdq for dq
; %2: ord/unord (for compat with sse4, unused)
; %3/%4: source regs
; %5/%6: tmp regs
%ifidn %1, d
%define mask [mask_10]
%define shift 16
%elifidn %1, q
%define mask [mask_1100]
%define shift 32
%endif
%if %0==6 ; less dependency if we have two tmp
    mova   m%5, mask   ; ff00
    mova   m%6, m%4    ; x5x4
    psll%1 m%4, shift  ; x4..
    pand   m%6, m%5    ; x5..
    pandn  m%5, m%3    ; ..x0
    psrl%1 m%3, shift  ; ..x1
    por    m%4, m%5    ; x4x0
    por    m%3, m%6    ; x5x1
%else ; more dependency, one insn less. sometimes faster, sometimes not
    mova   m%5, m%4    ; x5x4
    psll%1 m%4, shift  ; x4..
    pxor   m%4, m%3    ; (x4^x1)x0
    pand   m%4, mask   ; (x4^x1)..
    pxor   m%3, m%4    ; x4x0
    psrl%1 m%4, shift  ; ..(x1^x4)
    pxor   m%5, m%4    ; x5x1
    SWAP   %4, %3, %5
%endif
%endmacro

%macro TRANS_SSE4 5-6 ; see above
%ifidn %1, d
%ifidn %2, ord
    psrl%1  m%5, m%3, 16
    pblendw m%5, m%4, q2222
    psll%1  m%4, 16
    pblendw m%4, m%3, q1111
    SWAP     %3, %5
%else
%if avx_enabled
    pblendw m%5, m%3, m%4, q2222
    SWAP     %3, %5
%else
    mova    m%5, m%3
    pblendw m%3, m%4, q2222
%endif
    psll%1  m%4, 16
    psrl%1  m%5, 16
    por     m%4, m%5
%endif
%elifidn %1, q
    shufps m%5, m%3, m%4, q3131
    shufps m%3, m%3, m%4, q2020
    SWAP    %4, %5
%endif
%endmacro

%macro TRANS_XOP 5-6
%ifidn %1, d
    vpperm m%5, m%3, m%4, [transd_shuf1]
    vpperm m%3, m%3, m%4, [transd_shuf2]
%elifidn %1, q
    shufps m%5, m%3, m%4, q3131
    shufps m%3, m%4, q2020
%endif
    SWAP    %4, %5
%endmacro

%macro HADAMARD 5-6
; %1=distance in words (0 for vertical pass, 1/2/4 for horizontal passes)
; %2=sumsub/max/amax (sum and diff / maximum / maximum of absolutes)
; %3/%4: regs
; %5(%6): tmpregs
%if %1!=0 ; have to reorder stuff for horizontal op
    %ifidn %2, sumsub
        %define ORDER ord
        ; sumsub needs order because a-b != b-a unless a=b
    %else
        %define ORDER unord
        ; if we just max, order doesn't matter (allows pblendw+or in sse4)
    %endif
    %if %1==1
        TRANS d, ORDER, %3, %4, %5, %6
    %elif %1==2
        %if mmsize==8
            SBUTTERFLY dq, %3, %4, %5
        %else
            TRANS q, ORDER, %3, %4, %5, %6
        %endif
    %elif %1==4
        SBUTTERFLY qdq, %3, %4, %5
    %elif %1==8
        SBUTTERFLY dqqq, %3, %4, %5
    %endif
%endif
%ifidn %2, sumsub
    SUMSUB_BA w, %3, %4, %5
%else
    %ifidn %2, amax
        %if %0==6
            ABSW2 m%3, m%4, m%3, m%4, m%5, m%6
        %else
            ABSW m%3, m%3, m%5
            ABSW m%4, m%4, m%5
        %endif
    %endif
    pmaxsw m%3, m%4
%endif
%endmacro


%macro HADAMARD2_2D 6-7 sumsub
    HADAMARD 0, sumsub, %1, %2, %5
    HADAMARD 0, sumsub, %3, %4, %5
    SBUTTERFLY %6, %1, %2, %5
%ifnum %7
    HADAMARD 0, amax, %1, %2, %5, %7
%else
    HADAMARD 0, %7, %1, %2, %5
%endif
    SBUTTERFLY %6, %3, %4, %5
%ifnum %7
    HADAMARD 0, amax, %3, %4, %5, %7
%else
    HADAMARD 0, %7, %3, %4, %5
%endif
%endmacro

%macro HADAMARD4_2D 5-6 sumsub
    HADAMARD2_2D %1, %2, %3, %4, %5, wd
    HADAMARD2_2D %1, %3, %2, %4, %5, dq, %6
    SWAP %2, %3
%endmacro

%macro HADAMARD4_2D_SSE 5-6 sumsub
    HADAMARD  0, sumsub, %1, %2, %5 ; 1st V row 0 + 1
    HADAMARD  0, sumsub, %3, %4, %5 ; 1st V row 2 + 3
    SBUTTERFLY   wd, %1, %2, %5     ; %1: m0 1+0 %2: m1 1+0
    SBUTTERFLY   wd, %3, %4, %5     ; %3: m0 3+2 %4: m1 3+2
    HADAMARD2_2D %1, %3, %2, %4, %5, dq
    SBUTTERFLY  qdq, %1, %2, %5
    HADAMARD  0, %6, %1, %2, %5     ; 2nd H m1/m0 row 0+1
    SBUTTERFLY  qdq, %3, %4, %5
    HADAMARD  0, %6, %3, %4, %5     ; 2nd H m1/m0 row 2+3
%endmacro

%macro HADAMARD8_2D 9-10 sumsub
    HADAMARD2_2D %1, %2, %3, %4, %9, wd
    HADAMARD2_2D %5, %6, %7, %8, %9, wd
    HADAMARD2_2D %1, %3, %2, %4, %9, dq
    HADAMARD2_2D %5, %7, %6, %8, %9, dq
    HADAMARD2_2D %1, %5, %3, %7, %9, qdq, %10
    HADAMARD2_2D %2, %6, %4, %8, %9, qdq, %10
%ifnidn %10, amax
    SWAP %2, %5
    SWAP %4, %7
%endif
%endmacro

; doesn't include the "pmaddubsw hmul_8p" pass
%macro HADAMARD8_2D_HMUL 10
    HADAMARD4_V %1, %2, %3, %4, %9
    HADAMARD4_V %5, %6, %7, %8, %9
    SUMSUB_BADC w, %1, %5, %2, %6, %9
    HADAMARD 2, sumsub, %1, %5, %9, %10
    HADAMARD 2, sumsub, %2, %6, %9, %10
    SUMSUB_BADC w, %3, %7, %4, %8, %9
    HADAMARD 2, sumsub, %3, %7, %9, %10
    HADAMARD 2, sumsub, %4, %8, %9, %10
    HADAMARD 1, amax, %1, %5, %9, %10
    HADAMARD 1, amax, %2, %6, %9, %5
    HADAMARD 1, amax, %3, %7, %9, %5
    HADAMARD 1, amax, %4, %8, %9, %5
%endmacro

%macro SUMSUB2_AB 4
%if cpuflag(xop)
    pmacs%1%1 m%4, m%3, [p%1_m2], m%2
    pmacs%1%1 m%2, m%2, [p%1_2], m%3
%elifnum %3
    psub%1  m%4, m%2, m%3
    psub%1  m%4, m%3
    padd%1  m%2, m%2
    padd%1  m%2, m%3
%else
    mova    m%4, m%2
    padd%1  m%2, m%2
    padd%1  m%2, %3
    psub%1  m%4, %3
    psub%1  m%4, %3
%endif
%endmacro

%macro SUMSUBD2_AB 5
%ifnum %4
    psra%1  m%5, m%2, 1  ; %3: %3>>1
    psra%1  m%4, m%3, 1  ; %2: %2>>1
    padd%1  m%4, m%2     ; %3: %3>>1+%2
    psub%1  m%5, m%3     ; %2: %2>>1-%3
    SWAP     %2, %5
    SWAP     %3, %4
%else
    mova    %5, m%2
    mova    %4, m%3
    psra%1  m%3, 1  ; %3: %3>>1
    psra%1  m%2, 1  ; %2: %2>>1
    padd%1  m%3, %5 ; %3: %3>>1+%2
    psub%1  m%2, %4 ; %2: %2>>1-%3
%endif
%endmacro

%macro DCT4_1D 5
%ifnum %5
    SUMSUB_BADC w, %4, %1, %3, %2, %5
    SUMSUB_BA   w, %3, %4, %5
    SUMSUB2_AB  w, %1, %2, %5
    SWAP %1, %3, %4, %5, %2
%else
    SUMSUB_BADC w, %4, %1, %3, %2
    SUMSUB_BA   w, %3, %4
    mova     [%5], m%2
    SUMSUB2_AB  w, %1, [%5], %2
    SWAP %1, %3, %4, %2
%endif
%endmacro

%macro IDCT4_1D 6-7
%ifnum %6
    SUMSUBD2_AB %1, %3, %5, %7, %6
    ; %3: %3>>1-%5 %5: %3+%5>>1
    SUMSUB_BA   %1, %4, %2, %7
    ; %4: %2+%4 %2: %2-%4
    SUMSUB_BADC %1, %5, %4, %3, %2, %7
    ; %5: %2+%4 + (%3+%5>>1)
    ; %4: %2+%4 - (%3+%5>>1)
    ; %3: %2-%4 + (%3>>1-%5)
    ; %2: %2-%4 - (%3>>1-%5)
%else
%ifidn %1, w
    SUMSUBD2_AB %1, %3, %5, [%6], [%6+16]
%else
    SUMSUBD2_AB %1, %3, %5, [%6], [%6+32]
%endif
    SUMSUB_BA   %1, %4, %2
    SUMSUB_BADC %1, %5, %4, %3, %2
%endif
    SWAP %2, %5, %4
    ; %2: %2+%4 + (%3+%5>>1) row0
    ; %3: %2-%4 + (%3>>1-%5) row1
    ; %4: %2-%4 - (%3>>1-%5) row2
    ; %5: %2+%4 - (%3+%5>>1) row3
%endmacro


%macro LOAD_DIFF 5-6 1
%if HIGH_BIT_DEPTH
%if %6 ; %5 aligned?
    mova       %1, %4
    psubw      %1, %5
%else
    movu       %1, %4
    movu       %2, %5
    psubw      %1, %2
%endif
%else ; !HIGH_BIT_DEPTH
%ifidn %3, none
    movh       %1, %4
    movh       %2, %5
    punpcklbw  %1, %2
    punpcklbw  %2, %2
    psubw      %1, %2
%else
    movh       %1, %4
    punpcklbw  %1, %3
    movh       %2, %5
    punpcklbw  %2, %3
    psubw      %1, %2
%endif
%endif ; HIGH_BIT_DEPTH
%endmacro

%macro LOAD_DIFF8x4 8 ; 4x dst, 1x tmp, 1x mul, 2x ptr
%if BIT_DEPTH == 8 && cpuflag(ssse3)
    movh       m%2, [%8+%1*FDEC_STRIDE]
    movh       m%1, [%7+%1*FENC_STRIDE]
    punpcklbw  m%1, m%2
    movh       m%3, [%8+%2*FDEC_STRIDE]
    movh       m%2, [%7+%2*FENC_STRIDE]
    punpcklbw  m%2, m%3
    movh       m%4, [%8+%3*FDEC_STRIDE]
    movh       m%3, [%7+%3*FENC_STRIDE]
    punpcklbw  m%3, m%4
    movh       m%5, [%8+%4*FDEC_STRIDE]
    movh       m%4, [%7+%4*FENC_STRIDE]
    punpcklbw  m%4, m%5
    pmaddubsw  m%1, m%6
    pmaddubsw  m%2, m%6
    pmaddubsw  m%3, m%6
    pmaddubsw  m%4, m%6
%else
    LOAD_DIFF  m%1, m%5, m%6, [%7+%1*FENC_STRIDEB], [%8+%1*FDEC_STRIDEB]
    LOAD_DIFF  m%2, m%5, m%6, [%7+%2*FENC_STRIDEB], [%8+%2*FDEC_STRIDEB]
    LOAD_DIFF  m%3, m%5, m%6, [%7+%3*FENC_STRIDEB], [%8+%3*FDEC_STRIDEB]
    LOAD_DIFF  m%4, m%5, m%6, [%7+%4*FENC_STRIDEB], [%8+%4*FDEC_STRIDEB]
%endif
%endmacro

%macro STORE_DCT 6
    movq   [%5+%6+ 0], m%1
    movq   [%5+%6+ 8], m%2
    movq   [%5+%6+16], m%3
    movq   [%5+%6+24], m%4
    movhps [%5+%6+32], m%1
    movhps [%5+%6+40], m%2
    movhps [%5+%6+48], m%3
    movhps [%5+%6+56], m%4
%endmacro

%macro STORE_IDCT 4
    movhps [r0-4*FDEC_STRIDE], %1
    movh   [r0-3*FDEC_STRIDE], %1
    movhps [r0-2*FDEC_STRIDE], %2
    movh   [r0-1*FDEC_STRIDE], %2
    movhps [r0+0*FDEC_STRIDE], %3
    movh   [r0+1*FDEC_STRIDE], %3
    movhps [r0+2*FDEC_STRIDE], %4
    movh   [r0+3*FDEC_STRIDE], %4
%endmacro

%macro LOAD_DIFF_8x4P 7-11 r0,r2,0,1 ; 4x dest, 2x temp, 2x pointer, increment, aligned?
    LOAD_DIFF m%1, m%5, m%7, [%8],      [%9],      %11
    LOAD_DIFF m%2, m%6, m%7, [%8+r1],   [%9+r3],   %11
    LOAD_DIFF m%3, m%5, m%7, [%8+2*r1], [%9+2*r3], %11
    LOAD_DIFF m%4, m%6, m%7, [%8+r4],   [%9+r5],   %11
%if %10
    lea %8, [%8+4*r1]
    lea %9, [%9+4*r3]
%endif
%endmacro

; 2xdst, 2xtmp, 2xsrcrow
%macro LOAD_DIFF16x2_AVX2 6
    pmovzxbw m%1, [r1+%5*FENC_STRIDE]
    pmovzxbw m%2, [r1+%6*FENC_STRIDE]
    pmovzxbw m%3, [r2+(%5-4)*FDEC_STRIDE]
    pmovzxbw m%4, [r2+(%6-4)*FDEC_STRIDE]
    psubw    m%1, m%3
    psubw    m%2, m%4
%endmacro

%macro DIFFx2 6-7
    movh       %3, %5
    punpcklbw  %3, %4
    psraw      %1, 6
    paddsw     %1, %3
    movh       %3, %6
    punpcklbw  %3, %4
    psraw      %2, 6
    paddsw     %2, %3
    packuswb   %2, %1
%endmacro

; (high depth) in: %1, %2, min to clip, max to clip, mem128
; in: %1, tmp, %3, mem64
%macro STORE_DIFF 4-5
%if HIGH_BIT_DEPTH
    psrad      %1, 6
    psrad      %2, 6
    packssdw   %1, %2
    paddw      %1, %5
    CLIPW      %1, %3, %4
    mova       %5, %1
%else
    movh       %2, %4
    punpcklbw  %2, %3
    psraw      %1, 6
    paddsw     %1, %2
    packuswb   %1, %1
    movh       %4, %1
%endif
%endmacro

%macro SHUFFLE_MASK_W 8
    %rep 8
        %if %1>=0x80
            db %1, %1
        %else
            db %1*2
            db %1*2+1
        %endif
        %rotate 1
    %endrep
%endmacro

; instruction, accum, input, iteration (zero to swap, nonzero to add)
%macro ACCUM 4
%if %4
    %1        m%2, m%3
%else
    SWAP       %2, %3
%endif
%endmacro

; IACA support
%macro IACA_START 0
    mov ebx, 111
    db 0x64, 0x67, 0x90
%endmacro

%macro IACA_END 0
    mov ebx, 222
    db 0x64, 0x67, 0x90
%endmacro
Commit	Line	Data
72b9787e JB	1	;*****************************************************************************
	2	;* x86util.asm: x86 utility macros
	3	;*****************************************************************************
	4	;* Copyright (C) 2008-2013 x264 project
	5	;*
	6	;* Authors: Holger Lubitz <holger@lubitz.org>
	7	;* Loren Merritt <lorenm@u.washington.edu>
	8	;*
	9	;* This program is free software; you can redistribute it and/or modify
	10	;* it under the terms of the GNU General Public License as published by
	11	;* the Free Software Foundation; either version 2 of the License, or
	12	;* (at your option) any later version.
	13	;*
	14	;* This program is distributed in the hope that it will be useful,
	15	;* but WITHOUT ANY WARRANTY; without even the implied warranty of
	16	;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the
	17	;* GNU General Public License for more details.
	18	;*
	19	;* You should have received a copy of the GNU General Public License
	20	;* along with this program; if not, write to the Free Software
	21	;* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02111, USA.
	22	;*
	23	;* This program is also available under a commercial proprietary license.
	24	;* For more information, contact us at license @ x265.com.
	25	;*****************************************************************************
	26
	27	%assign FENC_STRIDE 64
	28	%assign FDEC_STRIDE 32
	29
	30	%assign SIZEOF_PIXEL 1
	31	%assign SIZEOF_DCTCOEF 2
	32	%define pixel byte
	33	%define vpbroadcastdct vpbroadcastw
	34	%define vpbroadcastpix vpbroadcastb
	35	%if HIGH_BIT_DEPTH
	36	%assign SIZEOF_PIXEL 2
	37	%assign SIZEOF_DCTCOEF 4
	38	%define pixel word
	39	%define vpbroadcastdct vpbroadcastd
	40	%define vpbroadcastpix vpbroadcastw
	41	%endif
	42
	43	%assign FENC_STRIDEB SIZEOF_PIXEL*FENC_STRIDE
	44	%assign FDEC_STRIDEB SIZEOF_PIXEL*FDEC_STRIDE
	45
	46	%assign PIXEL_MAX ((1 << BIT_DEPTH)-1)
	47
	48	%macro FIX_STRIDES 1-*
	49	%if HIGH_BIT_DEPTH
	50	%rep %0
	51	add %1, %1
	52	%rotate 1
	53	%endrep
	54	%endif
	55	%endmacro
	56
	57
	58	%macro SBUTTERFLY 4
	59	%ifidn %1, dqqq
	60	vperm2i128 m%4, m%2, m%3, q0301 ; punpckh
	61	vinserti128 m%2, m%2, xm%3, 1 ; punpckl
	62	%elif avx_enabled && mmsize >= 16
	63	punpckh%1 m%4, m%2, m%3
	64	punpckl%1 m%2, m%3
65	%else
66	mova m%4, m%2
67	punpckl%1 m%2, m%3
68	punpckh%1 m%4, m%3
69	%endif
70	SWAP %3, %4
71	%endmacro
72
73	%macro SBUTTERFLY2 4
74	punpckl%1 m%4, m%2, m%3
75	punpckh%1 m%2, m%2, m%3
76	SWAP %2, %4, %3
77	%endmacro
78
79	%macro TRANSPOSE4x4W 5
80	SBUTTERFLY wd, %1, %2, %5
81	SBUTTERFLY wd, %3, %4, %5
82	SBUTTERFLY dq, %1, %3, %5
83	SBUTTERFLY dq, %2, %4, %5
84	SWAP %2, %3
85	%endmacro
86
87	%macro TRANSPOSE2x4x4W 5
88	SBUTTERFLY wd, %1, %2, %5
89	SBUTTERFLY wd, %3, %4, %5
90	SBUTTERFLY dq, %1, %3, %5
91	SBUTTERFLY dq, %2, %4, %5
92	SBUTTERFLY qdq, %1, %2, %5
93	SBUTTERFLY qdq, %3, %4, %5
94	%endmacro
95
96	%macro TRANSPOSE4x4D 5
97	SBUTTERFLY dq, %1, %2, %5
98	SBUTTERFLY dq, %3, %4, %5
99	SBUTTERFLY qdq, %1, %3, %5
100	SBUTTERFLY qdq, %2, %4, %5
101	SWAP %2, %3
102	%endmacro
103
104	%macro TRANSPOSE8x8W 9-11
105	%if ARCH_X86_64
106	SBUTTERFLY wd, %1, %2, %9
107	SBUTTERFLY wd, %3, %4, %9
108	SBUTTERFLY wd, %5, %6, %9
109	SBUTTERFLY wd, %7, %8, %9
110	SBUTTERFLY dq, %1, %3, %9
111	SBUTTERFLY dq, %2, %4, %9
112	SBUTTERFLY dq, %5, %7, %9
113	SBUTTERFLY dq, %6, %8, %9
114	SBUTTERFLY qdq, %1, %5, %9
115	SBUTTERFLY qdq, %2, %6, %9
116	SBUTTERFLY qdq, %3, %7, %9
117	SBUTTERFLY qdq, %4, %8, %9
118	SWAP %2, %5
119	SWAP %4, %7
120	%else
121	; in: m0..m7, unless %11 in which case m6 is in %9
122	; out: m0..m7, unless %11 in which case m4 is in %10
123	; spills into %9 and %10
124	%if %0<11
125	movdqa %9, m%7
126	%endif
127	SBUTTERFLY wd, %1, %2, %7
128	movdqa %10, m%2
129	movdqa m%7, %9
130	SBUTTERFLY wd, %3, %4, %2
131	SBUTTERFLY wd, %5, %6, %2
132	SBUTTERFLY wd, %7, %8, %2
133	SBUTTERFLY dq, %1, %3, %2
134	movdqa %9, m%3
135	movdqa m%2, %10
136	SBUTTERFLY dq, %2, %4, %3
137	SBUTTERFLY dq, %5, %7, %3
138	SBUTTERFLY dq, %6, %8, %3
139	SBUTTERFLY qdq, %1, %5, %3
140	SBUTTERFLY qdq, %2, %6, %3
141	movdqa %10, m%2
142	movdqa m%3, %9
143	SBUTTERFLY qdq, %3, %7, %2
144	SBUTTERFLY qdq, %4, %8, %2
145	SWAP %2, %5
146	SWAP %4, %7
147	%if %0<11
148	movdqa m%5, %10
149	%endif
150	%endif
151	%endmacro
152
153	%macro WIDEN_SXWD 2
154	punpckhwd m%2, m%1
155	psrad m%2, 16
156	%if cpuflag(sse4)
157	pmovsxwd m%1, m%1
158	%else
159	punpcklwd m%1, m%1
160	psrad m%1, 16
161	%endif
162	%endmacro
163
164	%macro ABSW 2-3 ; dst, src, tmp (tmp used only if dst==src)
165	%if cpuflag(ssse3)
166	pabsw %1, %2
167	%elifidn %3, sign ; version for pairing with PSIGNW: modifies src
168	pxor %1, %1
169	pcmpgtw %1, %2
170	pxor %2, %1
171	psubw %2, %1
172	SWAP %1, %2
173	%elifidn %1, %2
174	pxor %3, %3
175	psubw %3, %1
176	pmaxsw %1, %3
177	%elifid %2
178	pxor %1, %1
179	psubw %1, %2
180	pmaxsw %1, %2
181	%elif %0 == 2
182	pxor %1, %1
183	psubw %1, %2
184	pmaxsw %1, %2
185	%else
186	mova %1, %2
187	pxor %3, %3
188	psubw %3, %1
189	pmaxsw %1, %3
190	%endif
191	%endmacro
192
193	%macro ABSW2 6 ; dst1, dst2, src1, src2, tmp, tmp
194	%if cpuflag(ssse3)
195	pabsw %1, %3
196	pabsw %2, %4
197	%elifidn %1, %3
198	pxor %5, %5
199	pxor %6, %6
200	psubw %5, %1
201	psubw %6, %2
202	pmaxsw %1, %5
203	pmaxsw %2, %6
204	%else
205	pxor %1, %1
206	pxor %2, %2
207	psubw %1, %3
208	psubw %2, %4
209	pmaxsw %1, %3
210	pmaxsw %2, %4
211	%endif
212	%endmacro
213
214	%macro ABSB 2
215	%if cpuflag(ssse3)
216	pabsb %1, %1
217	%else
218	pxor %2, %2
219	psubb %2, %1
220	pminub %1, %2
221	%endif
222	%endmacro
223
224	%macro ABSD 2-3
225	%if cpuflag(ssse3)
226	pabsd %1, %2
227	%else
228	%define %%s %2
229	%if %0 == 3
230	mova %3, %2
231	%define %%s %3
232	%endif
233	pxor %1, %1
234	pcmpgtd %1, %%s
235	pxor %%s, %1
236	psubd %%s, %1
237	SWAP %1, %%s
238	%endif
239	%endmacro
240
241	%macro PSIGN 3-4
242	%if cpuflag(ssse3) && %0 == 4
243	psign%1 %2, %3, %4
244	%elif cpuflag(ssse3)
245	psign%1 %2, %3
246	%elif %0 == 4
247	pxor %2, %3, %4
248	psub%1 %2, %4
249	%else
250	pxor %2, %3
251	psub%1 %2, %3
252	%endif
253	%endmacro
254
255	%define PSIGNW PSIGN w,
256	%define PSIGND PSIGN d,
257
258	%macro SPLATB_LOAD 3
259	%if cpuflag(ssse3)
260	movd %1, [%2-3]
261	pshufb %1, %3
262	%else
263	movd %1, [%2-3] ;to avoid crossing a cacheline
264	punpcklbw %1, %1
265	SPLATW %1, %1, 3
266	%endif
267	%endmacro
268
269	%imacro SPLATW 2-3 0
270	%if cpuflag(avx2) && %3 == 0
271	vpbroadcastw %1, %2
272	%else
273	PSHUFLW %1, %2, (%3)*q1111
274	%if mmsize == 16
275	punpcklqdq %1, %1
276	%endif
277	%endif
278	%endmacro
279
280	%imacro SPLATD 2-3 0
281	%if mmsize == 16
282	pshufd %1, %2, (%3)*q1111
283	%else
284	pshufw %1, %2, (%3)q0101 + ((%3)+1)q1010
285	%endif
286	%endmacro
287
288	%macro CLIPW 3 ;(dst, min, max)
289	pmaxsw %1, %2
290	pminsw %1, %3
291	%endmacro
292
293	%macro CLIPW2 4 ;(dst0, dst1, min, max)
294	pmaxsw %1, %3
295	pmaxsw %2, %3
296	pminsw %1, %4
297	pminsw %2, %4
298	%endmacro
299
300	%macro HADDD 2 ; sum junk
301	%if sizeof%1 == 32
302	%define %2 xmm%2
303	vextracti128 %2, %1, 1
304	%define %1 xmm%1
305	paddd %1, %2
306	%endif
307	%if mmsize >= 16
308	%if cpuflag(xop) && sizeof%1 == 16
309	vphadddq %1, %1
310	%endif
311	movhlps %2, %1
312	paddd %1, %2
313	%endif
314	%if notcpuflag(xop)
315	PSHUFLW %2, %1, q0032
316	paddd %1, %2
317	%endif
318	%undef %1
319	%undef %2
320	%endmacro
321
322	%macro HADDW 2 ; reg, tmp
323	%if cpuflag(xop) && sizeof%1 == 16
324	vphaddwq %1, %1
325	movhlps %2, %1
326	paddd %1, %2
327	%else
328	pmaddwd %1, [pw_1]
329	HADDD %1, %2
330	%endif
331	%endmacro
332
333	%macro HADDUWD 2
334	%if cpuflag(xop) && sizeof%1 == 16
335	vphadduwd %1, %1
336	%else
337	psrld %2, %1, 16
338	pslld %1, 16
339	psrld %1, 16
340	paddd %1, %2
341	%endif
342	%endmacro
343
344	%macro HADDUW 2
345	%if cpuflag(xop) && sizeof%1 == 16
346	vphadduwq %1, %1
347	movhlps %2, %1
348	paddd %1, %2
349	%else
350	HADDUWD %1, %2
351	HADDD %1, %2
352	%endif
353	%endmacro
354
355	%macro PALIGNR 4-5 ; [dst,] src1, src2, imm, tmp
356	; AVX2 version uses a precalculated extra input that
357	; can be re-used across calls
358	%if sizeof%1==32
359	; %3 = abcdefgh ijklmnop (lower address)
360	; %2 = ABCDEFGH IJKLMNOP (higher address)
361	; vperm2i128 %5, %2, %3, q0003 ; %5 = ijklmnop ABCDEFGH
362	%if %4 < 16
363	palignr %1, %5, %3, %4 ; %1 = bcdefghi jklmnopA
364	%else
365	palignr %1, %2, %5, %4-16 ; %1 = pABCDEFG HIJKLMNO
366	%endif
367	%elif cpuflag(ssse3)
368	%if %0==5
369	palignr %1, %2, %3, %4
370	%else
371	palignr %1, %2, %3
372	%endif
373	%else
374	%define %%dst %1
375	%if %0==5
376	%ifnidn %1, %2
377	mova %%dst, %2
378	%endif
379	%rotate 1
380	%endif
381	%ifnidn %4, %2
382	mova %4, %2
383	%endif
384	%if mmsize==8
385	psllq %%dst, (8-%3)*8
386	psrlq %4, %3*8
387	%else
388	pslldq %%dst, 16-%3
389	psrldq %4, %3
390	%endif
391	por %%dst, %4
392	%endif
393	%endmacro
394
395	%macro PSHUFLW 1+
396	%if mmsize == 8
397	pshufw %1
398	%else
399	pshuflw %1
400	%endif
401	%endmacro
402
403	; shift a mmxreg by n bytes, or a xmmreg by 2*n bytes
404	; values shifted in are undefined
405	; faster if dst==src
406	%define PSLLPIX PSXLPIX l, -1, ;dst, src, shift
407	%define PSRLPIX PSXLPIX r, 1, ;dst, src, shift
408	%macro PSXLPIX 5
409	%if mmsize == 8
410	%if %5&1
411	ps%1lq %3, %4, %5*8
412	%else
413	pshufw %3, %4, (q3210<<8>>(8+%2*%5))&0xff
414	%endif
415	%else
416	ps%1ldq %3, %4, %5*2
417	%endif
418	%endmacro
419
420	%macro DEINTB 5 ; mask, reg1, mask, reg2, optional src to fill masks from
421	%ifnum %5
422	pand m%3, m%5, m%4 ; src .. y6 .. y4
423	pand m%1, m%5, m%2 ; dst .. y6 .. y4
424	%else
425	mova m%1, %5
426	pand m%3, m%1, m%4 ; src .. y6 .. y4
427	pand m%1, m%1, m%2 ; dst .. y6 .. y4
428	%endif
429	psrlw m%2, 8 ; dst .. y7 .. y5
430	psrlw m%4, 8 ; src .. y7 .. y5
431	%endmacro
432
433	%macro SUMSUB_BA 3-4
434	%if %0==3
435	padd%1 m%2, m%3
436	padd%1 m%3, m%3
437	psub%1 m%3, m%2
438	%elif avx_enabled
439	padd%1 m%4, m%2, m%3
440	psub%1 m%3, m%2
441	SWAP %2, %4
442	%else
443	mova m%4, m%2
444	padd%1 m%2, m%3
445	psub%1 m%3, m%4
446	%endif
447	%endmacro
448
449	%macro SUMSUB_BADC 5-6
450	%if %0==6
451	SUMSUB_BA %1, %2, %3, %6
452	SUMSUB_BA %1, %4, %5, %6
453	%else
454	padd%1 m%2, m%3
455	padd%1 m%4, m%5
456	padd%1 m%3, m%3
457	padd%1 m%5, m%5
458	psub%1 m%3, m%2
459	psub%1 m%5, m%4
460	%endif
461	%endmacro
462
463	%macro HADAMARD4_V 4+
464	SUMSUB_BADC w, %1, %2, %3, %4
465	SUMSUB_BADC w, %1, %3, %2, %4
466	%endmacro
467
468	%macro HADAMARD8_V 8+
469	SUMSUB_BADC w, %1, %2, %3, %4
470	SUMSUB_BADC w, %5, %6, %7, %8
471	SUMSUB_BADC w, %1, %3, %2, %4
472	SUMSUB_BADC w, %5, %7, %6, %8
473	SUMSUB_BADC w, %1, %5, %2, %6
474	SUMSUB_BADC w, %3, %7, %4, %8
475	%endmacro
476
477	%macro TRANS_SSE2 5-6
478	; TRANSPOSE2x2
479	; %1: transpose width (d/q) - use SBUTTERFLY qdq for dq
480	; %2: ord/unord (for compat with sse4, unused)
481	; %3/%4: source regs
482	; %5/%6: tmp regs
483	%ifidn %1, d
484	%define mask [mask_10]
485	%define shift 16
486	%elifidn %1, q
487	%define mask [mask_1100]
488	%define shift 32
489	%endif
490	%if %0==6 ; less dependency if we have two tmp
491	mova m%5, mask ; ff00
492	mova m%6, m%4 ; x5x4
493	psll%1 m%4, shift ; x4..
494	pand m%6, m%5 ; x5..
495	pandn m%5, m%3 ; ..x0
496	psrl%1 m%3, shift ; ..x1
497	por m%4, m%5 ; x4x0
498	por m%3, m%6 ; x5x1
499	%else ; more dependency, one insn less. sometimes faster, sometimes not
500	mova m%5, m%4 ; x5x4
501	psll%1 m%4, shift ; x4..
502	pxor m%4, m%3 ; (x4^x1)x0
503	pand m%4, mask ; (x4^x1)..
504	pxor m%3, m%4 ; x4x0
505	psrl%1 m%4, shift ; ..(x1^x4)
506	pxor m%5, m%4 ; x5x1
507	SWAP %4, %3, %5
508	%endif
509	%endmacro
510
511	%macro TRANS_SSE4 5-6 ; see above
512	%ifidn %1, d
513	%ifidn %2, ord
514	psrl%1 m%5, m%3, 16
515	pblendw m%5, m%4, q2222
516	psll%1 m%4, 16
517	pblendw m%4, m%3, q1111
518	SWAP %3, %5
519	%else
520	%if avx_enabled
521	pblendw m%5, m%3, m%4, q2222
522	SWAP %3, %5
523	%else
524	mova m%5, m%3
525	pblendw m%3, m%4, q2222
526	%endif
527	psll%1 m%4, 16
528	psrl%1 m%5, 16
529	por m%4, m%5
530	%endif
531	%elifidn %1, q
532	shufps m%5, m%3, m%4, q3131
533	shufps m%3, m%3, m%4, q2020
534	SWAP %4, %5
535	%endif
536	%endmacro
537
538	%macro TRANS_XOP 5-6
539	%ifidn %1, d
540	vpperm m%5, m%3, m%4, [transd_shuf1]
541	vpperm m%3, m%3, m%4, [transd_shuf2]
542	%elifidn %1, q
543	shufps m%5, m%3, m%4, q3131
544	shufps m%3, m%4, q2020
545	%endif
546	SWAP %4, %5
547	%endmacro
548
549	%macro HADAMARD 5-6
550	; %1=distance in words (0 for vertical pass, 1/2/4 for horizontal passes)
551	; %2=sumsub/max/amax (sum and diff / maximum / maximum of absolutes)
552	; %3/%4: regs
553	; %5(%6): tmpregs
554	%if %1!=0 ; have to reorder stuff for horizontal op
555	%ifidn %2, sumsub
556	%define ORDER ord
557	; sumsub needs order because a-b != b-a unless a=b
558	%else
559	%define ORDER unord
560	; if we just max, order doesn't matter (allows pblendw+or in sse4)
561	%endif
562	%if %1==1
563	TRANS d, ORDER, %3, %4, %5, %6
564	%elif %1==2
565	%if mmsize==8
566	SBUTTERFLY dq, %3, %4, %5
567	%else
568	TRANS q, ORDER, %3, %4, %5, %6
569	%endif
570	%elif %1==4
571	SBUTTERFLY qdq, %3, %4, %5
572	%elif %1==8
573	SBUTTERFLY dqqq, %3, %4, %5
574	%endif
575	%endif
576	%ifidn %2, sumsub
577	SUMSUB_BA w, %3, %4, %5
578	%else
579	%ifidn %2, amax
580	%if %0==6
581	ABSW2 m%3, m%4, m%3, m%4, m%5, m%6
582	%else
583	ABSW m%3, m%3, m%5
584	ABSW m%4, m%4, m%5
585	%endif
586	%endif
587	pmaxsw m%3, m%4
588	%endif
589	%endmacro
590
591
592	%macro HADAMARD2_2D 6-7 sumsub
593	HADAMARD 0, sumsub, %1, %2, %5
594	HADAMARD 0, sumsub, %3, %4, %5
595	SBUTTERFLY %6, %1, %2, %5
596	%ifnum %7
597	HADAMARD 0, amax, %1, %2, %5, %7
598	%else
599	HADAMARD 0, %7, %1, %2, %5
600	%endif
601	SBUTTERFLY %6, %3, %4, %5
602	%ifnum %7
603	HADAMARD 0, amax, %3, %4, %5, %7
604	%else
605	HADAMARD 0, %7, %3, %4, %5
606	%endif
607	%endmacro
608
609	%macro HADAMARD4_2D 5-6 sumsub
610	HADAMARD2_2D %1, %2, %3, %4, %5, wd
611	HADAMARD2_2D %1, %3, %2, %4, %5, dq, %6
612	SWAP %2, %3
613	%endmacro
614
615	%macro HADAMARD4_2D_SSE 5-6 sumsub
616	HADAMARD 0, sumsub, %1, %2, %5 ; 1st V row 0 + 1
617	HADAMARD 0, sumsub, %3, %4, %5 ; 1st V row 2 + 3
618	SBUTTERFLY wd, %1, %2, %5 ; %1: m0 1+0 %2: m1 1+0
619	SBUTTERFLY wd, %3, %4, %5 ; %3: m0 3+2 %4: m1 3+2
620	HADAMARD2_2D %1, %3, %2, %4, %5, dq
621	SBUTTERFLY qdq, %1, %2, %5
622	HADAMARD 0, %6, %1, %2, %5 ; 2nd H m1/m0 row 0+1
623	SBUTTERFLY qdq, %3, %4, %5
624	HADAMARD 0, %6, %3, %4, %5 ; 2nd H m1/m0 row 2+3
625	%endmacro
626
627	%macro HADAMARD8_2D 9-10 sumsub
628	HADAMARD2_2D %1, %2, %3, %4, %9, wd
629	HADAMARD2_2D %5, %6, %7, %8, %9, wd
630	HADAMARD2_2D %1, %3, %2, %4, %9, dq
631	HADAMARD2_2D %5, %7, %6, %8, %9, dq
632	HADAMARD2_2D %1, %5, %3, %7, %9, qdq, %10
633	HADAMARD2_2D %2, %6, %4, %8, %9, qdq, %10
634	%ifnidn %10, amax
635	SWAP %2, %5
636	SWAP %4, %7
637	%endif
638	%endmacro
639
640	; doesn't include the "pmaddubsw hmul_8p" pass
641	%macro HADAMARD8_2D_HMUL 10
642	HADAMARD4_V %1, %2, %3, %4, %9
643	HADAMARD4_V %5, %6, %7, %8, %9
644	SUMSUB_BADC w, %1, %5, %2, %6, %9
645	HADAMARD 2, sumsub, %1, %5, %9, %10
646	HADAMARD 2, sumsub, %2, %6, %9, %10
647	SUMSUB_BADC w, %3, %7, %4, %8, %9
648	HADAMARD 2, sumsub, %3, %7, %9, %10
649	HADAMARD 2, sumsub, %4, %8, %9, %10
650	HADAMARD 1, amax, %1, %5, %9, %10
651	HADAMARD 1, amax, %2, %6, %9, %5
652	HADAMARD 1, amax, %3, %7, %9, %5
653	HADAMARD 1, amax, %4, %8, %9, %5
654	%endmacro
655
656	%macro SUMSUB2_AB 4
657	%if cpuflag(xop)
658	pmacs%1%1 m%4, m%3, [p%1_m2], m%2
659	pmacs%1%1 m%2, m%2, [p%1_2], m%3
660	%elifnum %3
661	psub%1 m%4, m%2, m%3
662	psub%1 m%4, m%3
663	padd%1 m%2, m%2
664	padd%1 m%2, m%3
665	%else
666	mova m%4, m%2
667	padd%1 m%2, m%2
668	padd%1 m%2, %3
669	psub%1 m%4, %3
670	psub%1 m%4, %3
671	%endif
672	%endmacro
673
674	%macro SUMSUBD2_AB 5
675	%ifnum %4
676	psra%1 m%5, m%2, 1 ; %3: %3>>1
677	psra%1 m%4, m%3, 1 ; %2: %2>>1
678	padd%1 m%4, m%2 ; %3: %3>>1+%2
679	psub%1 m%5, m%3 ; %2: %2>>1-%3
680	SWAP %2, %5
681	SWAP %3, %4
682	%else
683	mova %5, m%2
684	mova %4, m%3
685	psra%1 m%3, 1 ; %3: %3>>1
686	psra%1 m%2, 1 ; %2: %2>>1
687	padd%1 m%3, %5 ; %3: %3>>1+%2
688	psub%1 m%2, %4 ; %2: %2>>1-%3
689	%endif
690	%endmacro
691
692	%macro DCT4_1D 5
693	%ifnum %5
694	SUMSUB_BADC w, %4, %1, %3, %2, %5
695	SUMSUB_BA w, %3, %4, %5
696	SUMSUB2_AB w, %1, %2, %5
697	SWAP %1, %3, %4, %5, %2
698	%else
699	SUMSUB_BADC w, %4, %1, %3, %2
700	SUMSUB_BA w, %3, %4
701	mova [%5], m%2
702	SUMSUB2_AB w, %1, [%5], %2
703	SWAP %1, %3, %4, %2
704	%endif
705	%endmacro
706
707	%macro IDCT4_1D 6-7
708	%ifnum %6
709	SUMSUBD2_AB %1, %3, %5, %7, %6
710	; %3: %3>>1-%5 %5: %3+%5>>1
711	SUMSUB_BA %1, %4, %2, %7
712	; %4: %2+%4 %2: %2-%4
713	SUMSUB_BADC %1, %5, %4, %3, %2, %7
714	; %5: %2+%4 + (%3+%5>>1)
715	; %4: %2+%4 - (%3+%5>>1)
716	; %3: %2-%4 + (%3>>1-%5)
717	; %2: %2-%4 - (%3>>1-%5)
718	%else
719	%ifidn %1, w
720	SUMSUBD2_AB %1, %3, %5, [%6], [%6+16]
721	%else
722	SUMSUBD2_AB %1, %3, %5, [%6], [%6+32]
723	%endif
724	SUMSUB_BA %1, %4, %2
725	SUMSUB_BADC %1, %5, %4, %3, %2
726	%endif
727	SWAP %2, %5, %4
728	; %2: %2+%4 + (%3+%5>>1) row0
729	; %3: %2-%4 + (%3>>1-%5) row1
730	; %4: %2-%4 - (%3>>1-%5) row2
731	; %5: %2+%4 - (%3+%5>>1) row3
732	%endmacro
733
734
735	%macro LOAD_DIFF 5-6 1
736	%if HIGH_BIT_DEPTH
737	%if %6 ; %5 aligned?
738	mova %1, %4
739	psubw %1, %5
740	%else
741	movu %1, %4
742	movu %2, %5
743	psubw %1, %2
744	%endif
745	%else ; !HIGH_BIT_DEPTH
746	%ifidn %3, none
747	movh %1, %4
748	movh %2, %5
749	punpcklbw %1, %2
750	punpcklbw %2, %2
751	psubw %1, %2
752	%else
753	movh %1, %4
754	punpcklbw %1, %3
755	movh %2, %5
756	punpcklbw %2, %3
757	psubw %1, %2
758	%endif
759	%endif ; HIGH_BIT_DEPTH
760	%endmacro
761
762	%macro LOAD_DIFF8x4 8 ; 4x dst, 1x tmp, 1x mul, 2x ptr
763	%if BIT_DEPTH == 8 && cpuflag(ssse3)
764	movh m%2, [%8+%1*FDEC_STRIDE]
765	movh m%1, [%7+%1*FENC_STRIDE]
766	punpcklbw m%1, m%2
767	movh m%3, [%8+%2*FDEC_STRIDE]
768	movh m%2, [%7+%2*FENC_STRIDE]
769	punpcklbw m%2, m%3
770	movh m%4, [%8+%3*FDEC_STRIDE]
771	movh m%3, [%7+%3*FENC_STRIDE]
772	punpcklbw m%3, m%4
773	movh m%5, [%8+%4*FDEC_STRIDE]
774	movh m%4, [%7+%4*FENC_STRIDE]
775	punpcklbw m%4, m%5
776	pmaddubsw m%1, m%6
777	pmaddubsw m%2, m%6
778	pmaddubsw m%3, m%6
779	pmaddubsw m%4, m%6
780	%else
781	LOAD_DIFF m%1, m%5, m%6, [%7+%1FENC_STRIDEB], [%8+%1FDEC_STRIDEB]
782	LOAD_DIFF m%2, m%5, m%6, [%7+%2FENC_STRIDEB], [%8+%2FDEC_STRIDEB]
783	LOAD_DIFF m%3, m%5, m%6, [%7+%3FENC_STRIDEB], [%8+%3FDEC_STRIDEB]
784	LOAD_DIFF m%4, m%5, m%6, [%7+%4FENC_STRIDEB], [%8+%4FDEC_STRIDEB]
785	%endif
786	%endmacro
787
788	%macro STORE_DCT 6
789	movq [%5+%6+ 0], m%1
790	movq [%5+%6+ 8], m%2
791	movq [%5+%6+16], m%3
792	movq [%5+%6+24], m%4
793	movhps [%5+%6+32], m%1
794	movhps [%5+%6+40], m%2
795	movhps [%5+%6+48], m%3
796	movhps [%5+%6+56], m%4
797	%endmacro
798
799	%macro STORE_IDCT 4
800	movhps [r0-4*FDEC_STRIDE], %1
801	movh [r0-3*FDEC_STRIDE], %1
802	movhps [r0-2*FDEC_STRIDE], %2
803	movh [r0-1*FDEC_STRIDE], %2
804	movhps [r0+0*FDEC_STRIDE], %3
805	movh [r0+1*FDEC_STRIDE], %3
806	movhps [r0+2*FDEC_STRIDE], %4
807	movh [r0+3*FDEC_STRIDE], %4
808	%endmacro
809
810	%macro LOAD_DIFF_8x4P 7-11 r0,r2,0,1 ; 4x dest, 2x temp, 2x pointer, increment, aligned?
811	LOAD_DIFF m%1, m%5, m%7, [%8], [%9], %11
812	LOAD_DIFF m%2, m%6, m%7, [%8+r1], [%9+r3], %11
813	LOAD_DIFF m%3, m%5, m%7, [%8+2r1], [%9+2r3], %11
814	LOAD_DIFF m%4, m%6, m%7, [%8+r4], [%9+r5], %11
815	%if %10
816	lea %8, [%8+4*r1]
817	lea %9, [%9+4*r3]
818	%endif
819	%endmacro
820
821	; 2xdst, 2xtmp, 2xsrcrow
822	%macro LOAD_DIFF16x2_AVX2 6
823	pmovzxbw m%1, [r1+%5*FENC_STRIDE]
824	pmovzxbw m%2, [r1+%6*FENC_STRIDE]
825	pmovzxbw m%3, [r2+(%5-4)*FDEC_STRIDE]
826	pmovzxbw m%4, [r2+(%6-4)*FDEC_STRIDE]
827	psubw m%1, m%3
828	psubw m%2, m%4
829	%endmacro
830
831	%macro DIFFx2 6-7
832	movh %3, %5
833	punpcklbw %3, %4
834	psraw %1, 6
835	paddsw %1, %3
836	movh %3, %6
837	punpcklbw %3, %4
838	psraw %2, 6
839	paddsw %2, %3
840	packuswb %2, %1
841	%endmacro
842
843	; (high depth) in: %1, %2, min to clip, max to clip, mem128
844	; in: %1, tmp, %3, mem64
845	%macro STORE_DIFF 4-5
846	%if HIGH_BIT_DEPTH
847	psrad %1, 6
848	psrad %2, 6
849	packssdw %1, %2
850	paddw %1, %5
851	CLIPW %1, %3, %4
852	mova %5, %1
853	%else
854	movh %2, %4
855	punpcklbw %2, %3
856	psraw %1, 6
857	paddsw %1, %2
858	packuswb %1, %1
859	movh %4, %1
860	%endif
861	%endmacro
862
863	%macro SHUFFLE_MASK_W 8
864	%rep 8
865	%if %1>=0x80
866	db %1, %1
867	%else
868	db %1*2
869	db %1*2+1
870	%endif
871	%rotate 1
872	%endrep
873	%endmacro
874
875	; instruction, accum, input, iteration (zero to swap, nonzero to add)
876	%macro ACCUM 4
877	%if %4
878	%1 m%2, m%3
879	%else
880	SWAP %2, %3
881	%endif
882	%endmacro
883
884	; IACA support
885	%macro IACA_START 0
886	mov ebx, 111
887	db 0x64, 0x67, 0x90
888	%endmacro
889
890	%macro IACA_END 0
891	mov ebx, 222
892	db 0x64, 0x67, 0x90
893	%endmacro