[deb_ffmpeg.git] / ffmpeg / libavcodec / x86 / h264_qpel_10bit.asm

;*****************************************************************************
;* MMX/SSE2/AVX-optimized 10-bit H.264 qpel code
;*****************************************************************************
;* Copyright (C) 2011 x264 project
;*
;* Authors: Daniel Kang <daniel.d.kang@gmail.com>
;*
;* This file is part of FFmpeg.
;*
;* FFmpeg is free software; you can redistribute it and/or
;* modify it under the terms of the GNU Lesser General Public
;* License as published by the Free Software Foundation; either
;* version 2.1 of the License, or (at your option) any later version.
;*
;* FFmpeg is distributed in the hope that it will be useful,
;* but WITHOUT ANY WARRANTY; without even the implied warranty of
;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
;* Lesser General Public License for more details.
;*
;* You should have received a copy of the GNU Lesser General Public
;* License along with FFmpeg; if not, write to the Free Software
;* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
;******************************************************************************

%include "libavutil/x86/x86util.asm"

SECTION_RODATA 32

cextern pw_16
cextern pw_1
pb_0: times 32 db 0 ; we do not use cextern here as old llvm-gcc fails to align it correctly

pw_pixel_max: times 8 dw ((1 << 10)-1)

pad10: times 8 dw 10*1023
pad20: times 8 dw 20*1023
pad30: times 8 dw 30*1023
depad: times 4 dd 32*20*1023 + 512
depad2: times 8 dw 20*1023 + 16*1022 + 16
unpad: times 8 dw 16*1022/32 ; needs to be mod 16

tap1: times 4 dw  1, -5
tap2: times 4 dw 20, 20
tap3: times 4 dw -5,  1
pd_0f: times 4 dd 0xffff

SECTION .text


%macro AVG_MOV 2
    pavgw %2, %1
    mova  %1, %2
%endmacro

%macro ADDW 3
%if mmsize == 8
    paddw %1, %2
%else
    movu  %3, %2
    paddw %1, %3
%endif
%endmacro

%macro FILT_H 4
    paddw  %1, %4
    psubw  %1, %2  ; a-b
    psraw  %1, 2   ; (a-b)/4
    psubw  %1, %2  ; (a-b)/4-b
    paddw  %1, %3  ; (a-b)/4-b+c
    psraw  %1, 2   ; ((a-b)/4-b+c)/4
    paddw  %1, %3  ; ((a-b)/4-b+c)/4+c = (a-5*b+20*c)/16
%endmacro

%macro PRELOAD_V 0
    lea      r3, [r2*3]
    sub      r1, r3
    movu     m0, [r1+r2]
    movu     m1, [r1+r2*2]
    add      r1, r3
    movu     m2, [r1]
    movu     m3, [r1+r2]
    movu     m4, [r1+r2*2]
    add      r1, r3
%endmacro

%macro FILT_V 8
    movu     %6, [r1]
    paddw    %1, %6
    mova     %7, %2
    paddw    %7, %5
    mova     %8, %3
    paddw    %8, %4
    FILT_H   %1, %7, %8, [pw_16]
    psraw    %1, 1
    CLIPW    %1, [pb_0], [pw_pixel_max]
%endmacro

%macro MC 1
%define OP_MOV mova
INIT_MMX mmxext
%1 put, 4
INIT_XMM sse2
%1 put, 8

%define OP_MOV AVG_MOV
INIT_MMX mmxext
%1 avg, 4
INIT_XMM sse2
%1 avg, 8
%endmacro

%macro MCAxA_OP 7
%if ARCH_X86_32
cglobal %1_h264_qpel%4_%2_10, %5,%6,%7
    call stub_%1_h264_qpel%3_%2_10 %+ SUFFIX
    mov  r0, r0m
    mov  r1, r1m
    add  r0, %3*2
    add  r1, %3*2
    call stub_%1_h264_qpel%3_%2_10 %+ SUFFIX
    mov  r0, r0m
    mov  r1, r1m
    lea  r0, [r0+r2*%3]
    lea  r1, [r1+r2*%3]
    call stub_%1_h264_qpel%3_%2_10 %+ SUFFIX
    mov  r0, r0m
    mov  r1, r1m
    lea  r0, [r0+r2*%3+%3*2]
    lea  r1, [r1+r2*%3+%3*2]
    call stub_%1_h264_qpel%3_%2_10 %+ SUFFIX
    RET
%else ; ARCH_X86_64
cglobal %1_h264_qpel%4_%2_10, %5,%6 + 2,%7
    mov r%6, r0
%assign p1 %6+1
    mov r %+ p1, r1
    call stub_%1_h264_qpel%3_%2_10 %+ SUFFIX
    lea  r0, [r%6+%3*2]
    lea  r1, [r %+ p1+%3*2]
    call stub_%1_h264_qpel%3_%2_10 %+ SUFFIX
    lea  r0, [r%6+r2*%3]
    lea  r1, [r %+ p1+r2*%3]
    call stub_%1_h264_qpel%3_%2_10 %+ SUFFIX
    lea  r0, [r%6+r2*%3+%3*2]
    lea  r1, [r %+ p1+r2*%3+%3*2]
%if UNIX64 == 0 ; fall through to function
    call stub_%1_h264_qpel%3_%2_10 %+ SUFFIX
    RET
%endif
%endif
%endmacro

;cpu, put/avg, mc, 4/8, ...
%macro cglobal_mc 6
%assign i %3*2
%if ARCH_X86_32 || cpuflag(sse2)
MCAxA_OP %1, %2, %3, i, %4,%5,%6
%endif

cglobal %1_h264_qpel%3_%2_10, %4,%5,%6
%if UNIX64 == 0 ; no prologue or epilogue for UNIX64
    call stub_%1_h264_qpel%3_%2_10 %+ SUFFIX
    RET
%endif

stub_%1_h264_qpel%3_%2_10 %+ SUFFIX:
%endmacro

;-----------------------------------------------------------------------------
; void ff_h264_qpel_mc00(uint8_t *dst, uint8_t *src, int stride)
;-----------------------------------------------------------------------------
%macro COPY4 0
    movu          m0, [r1     ]
    OP_MOV [r0     ], m0
    movu          m0, [r1+r2  ]
    OP_MOV [r0+r2  ], m0
    movu          m0, [r1+r2*2]
    OP_MOV [r0+r2*2], m0
    movu          m0, [r1+r3  ]
    OP_MOV [r0+r3  ], m0
%endmacro

%macro MC00 1
INIT_MMX mmxext
cglobal_mc %1, mc00, 4, 3,4,0
    lea           r3, [r2*3]
    COPY4
    ret

INIT_XMM sse2
cglobal %1_h264_qpel8_mc00_10, 3,4
    lea  r3, [r2*3]
    COPY4
    lea  r0, [r0+r2*4]
    lea  r1, [r1+r2*4]
    COPY4
    RET

cglobal %1_h264_qpel16_mc00_10, 3,4
    mov r3d, 8
.loop:
    movu           m0, [r1      ]
    movu           m1, [r1   +16]
    OP_MOV [r0      ], m0
    OP_MOV [r0   +16], m1
    movu           m0, [r1+r2   ]
    movu           m1, [r1+r2+16]
    OP_MOV [r0+r2   ], m0
    OP_MOV [r0+r2+16], m1
    lea            r0, [r0+r2*2]
    lea            r1, [r1+r2*2]
    dec r3d
    jg .loop
    REP_RET
%endmacro

%define OP_MOV mova
MC00 put

%define OP_MOV AVG_MOV
MC00 avg

;-----------------------------------------------------------------------------
; void ff_h264_qpel_mc20(uint8_t *dst, uint8_t *src, int stride)
;-----------------------------------------------------------------------------
%macro MC_CACHE 1
%define OP_MOV mova
INIT_MMX mmxext
%1 put, 4
INIT_XMM sse2, cache64
%1 put, 8
INIT_XMM ssse3, cache64
%1 put, 8
INIT_XMM sse2
%1 put, 8

%define OP_MOV AVG_MOV
INIT_MMX mmxext
%1 avg, 4
INIT_XMM sse2, cache64
%1 avg, 8
INIT_XMM ssse3, cache64
%1 avg, 8
INIT_XMM sse2
%1 avg, 8
%endmacro

%macro MC20 2
cglobal_mc %1, mc20, %2, 3,4,9
    mov     r3d, %2
    mova     m1, [pw_pixel_max]
%if num_mmregs > 8
    mova     m8, [pw_16]
    %define p16 m8
%else
    %define p16 [pw_16]
%endif
.nextrow:
%if %0 == 4
    movu     m2, [r1-4]
    movu     m3, [r1-2]
    movu     m4, [r1+0]
    ADDW     m2, [r1+6], m5
    ADDW     m3, [r1+4], m5
    ADDW     m4, [r1+2], m5
%else ; movu is slow on these processors
%if mmsize==16
    movu     m2, [r1-4]
    movu     m0, [r1+6]
    mova     m6, m0
    psrldq   m0, 6

    paddw    m6, m2
    PALIGNR  m3, m0, m2, 2, m5
    PALIGNR  m7, m0, m2, 8, m5
    paddw    m3, m7
    PALIGNR  m4, m0, m2, 4, m5
    PALIGNR  m7, m0, m2, 6, m5
    paddw    m4, m7
    SWAP      2, 6
%else
    movu     m2, [r1-4]
    movu     m6, [r1+4]
    PALIGNR  m3, m6, m2, 2, m5
    paddw    m3, m6
    PALIGNR  m4, m6, m2, 4, m5
    PALIGNR  m7, m6, m2, 6, m5
    paddw    m4, m7
    paddw    m2, [r1+6]
%endif
%endif

    FILT_H   m2, m3, m4, p16
    psraw    m2, 1
    pxor     m0, m0
    CLIPW    m2, m0, m1
    OP_MOV [r0], m2
    add      r0, r2
    add      r1, r2
    dec     r3d
    jg .nextrow
    rep ret
%endmacro

MC_CACHE MC20

;-----------------------------------------------------------------------------
; void ff_h264_qpel_mc30(uint8_t *dst, uint8_t *src, int stride)
;-----------------------------------------------------------------------------
%macro MC30 2
cglobal_mc %1, mc30, %2, 3,5,9
    lea r4, [r1+2]
    jmp stub_%1_h264_qpel%2_mc10_10 %+ SUFFIX %+ .body
%endmacro

MC_CACHE MC30

;-----------------------------------------------------------------------------
; void ff_h264_qpel_mc10(uint8_t *dst, uint8_t *src, int stride)
;-----------------------------------------------------------------------------
%macro MC10 2
cglobal_mc %1, mc10, %2, 3,5,9
    mov      r4, r1
.body:
    mov     r3d, %2
    mova     m1, [pw_pixel_max]
%if num_mmregs > 8
    mova     m8, [pw_16]
    %define p16 m8
%else
    %define p16 [pw_16]
%endif
.nextrow:
%if %0 == 4
    movu     m2, [r1-4]
    movu     m3, [r1-2]
    movu     m4, [r1+0]
    ADDW     m2, [r1+6], m5
    ADDW     m3, [r1+4], m5
    ADDW     m4, [r1+2], m5
%else ; movu is slow on these processors
%if mmsize==16
    movu     m2, [r1-4]
    movu     m0, [r1+6]
    mova     m6, m0
    psrldq   m0, 6

    paddw    m6, m2
    PALIGNR  m3, m0, m2, 2, m5
    PALIGNR  m7, m0, m2, 8, m5
    paddw    m3, m7
    PALIGNR  m4, m0, m2, 4, m5
    PALIGNR  m7, m0, m2, 6, m5
    paddw    m4, m7
    SWAP      2, 6
%else
    movu     m2, [r1-4]
    movu     m6, [r1+4]
    PALIGNR  m3, m6, m2, 2, m5
    paddw    m3, m6
    PALIGNR  m4, m6, m2, 4, m5
    PALIGNR  m7, m6, m2, 6, m5
    paddw    m4, m7
    paddw    m2, [r1+6]
%endif
%endif

    FILT_H   m2, m3, m4, p16
    psraw    m2, 1
    pxor     m0, m0
    CLIPW    m2, m0, m1
    movu     m3, [r4]
    pavgw    m2, m3
    OP_MOV [r0], m2
    add      r0, r2
    add      r1, r2
    add      r4, r2
    dec     r3d
    jg .nextrow
    rep ret
%endmacro

MC_CACHE MC10

;-----------------------------------------------------------------------------
; void ff_h264_qpel_mc02(uint8_t *dst, uint8_t *src, int stride)
;-----------------------------------------------------------------------------
%macro V_FILT 10
v_filt%9_%10_10
    add    r4, r2
.no_addr4:
    FILT_V m0, m1, m2, m3, m4, m5, m6, m7
    add    r1, r2
    add    r0, r2
    ret
%endmacro

INIT_MMX mmxext
RESET_MM_PERMUTATION
%assign i 0
%rep 4
V_FILT m0, m1, m2, m3, m4, m5, m6, m7, 4, i
SWAP 0,1,2,3,4,5
%assign i i+1
%endrep

INIT_XMM sse2
RESET_MM_PERMUTATION
%assign i 0
%rep 6
V_FILT m0, m1, m2, m3, m4, m5, m6, m7, 8, i
SWAP 0,1,2,3,4,5
%assign i i+1
%endrep

%macro MC02 2
cglobal_mc %1, mc02, %2, 3,4,8
    PRELOAD_V

    sub      r0, r2
%assign j 0
%rep %2
    %assign i (j % 6)
    call v_filt%2_ %+ i %+ _10.no_addr4
    OP_MOV [r0], m0
    SWAP 0,1,2,3,4,5
    %assign j j+1
%endrep
    ret
%endmacro

MC MC02

;-----------------------------------------------------------------------------
; void ff_h264_qpel_mc01(uint8_t *dst, uint8_t *src, int stride)
;-----------------------------------------------------------------------------
%macro MC01 2
cglobal_mc %1, mc01, %2, 3,5,8
    mov      r4, r1
.body:
    PRELOAD_V

    sub      r4, r2
    sub      r0, r2
%assign j 0
%rep %2
    %assign i (j % 6)
    call v_filt%2_ %+ i %+ _10
    movu     m7, [r4]
    pavgw    m0, m7
    OP_MOV [r0], m0
    SWAP 0,1,2,3,4,5
    %assign j j+1
%endrep
    ret
%endmacro

MC MC01

;-----------------------------------------------------------------------------
; void ff_h264_qpel_mc03(uint8_t *dst, uint8_t *src, int stride)
;-----------------------------------------------------------------------------
%macro MC03 2
cglobal_mc %1, mc03, %2, 3,5,8
    lea r4, [r1+r2]
    jmp stub_%1_h264_qpel%2_mc01_10 %+ SUFFIX %+ .body
%endmacro

MC MC03

;-----------------------------------------------------------------------------
; void ff_h264_qpel_mc11(uint8_t *dst, uint8_t *src, int stride)
;-----------------------------------------------------------------------------
%macro H_FILT_AVG 2-3
h_filt%1_%2_10:
;FILT_H with fewer registers and averaged with the FILT_V result
;m6,m7 are tmp registers, m0 is the FILT_V result, the rest are to be used next in the next iteration
;unfortunately I need three registers, so m5 will have to be re-read from memory
    movu     m5, [r4-4]
    ADDW     m5, [r4+6], m7
    movu     m6, [r4-2]
    ADDW     m6, [r4+4], m7
    paddw    m5, [pw_16]
    psubw    m5, m6  ; a-b
    psraw    m5, 2   ; (a-b)/4
    psubw    m5, m6  ; (a-b)/4-b
    movu     m6, [r4+0]
    ADDW     m6, [r4+2], m7
    paddw    m5, m6  ; (a-b)/4-b+c
    psraw    m5, 2   ; ((a-b)/4-b+c)/4
    paddw    m5, m6  ; ((a-b)/4-b+c)/4+c = (a-5*b+20*c)/16
    psraw    m5, 1
    CLIPW    m5, [pb_0], [pw_pixel_max]
;avg FILT_V, FILT_H
    pavgw    m0, m5
%if %0!=4
    movu     m5, [r1+r5]
%endif
    ret
%endmacro

INIT_MMX mmxext
RESET_MM_PERMUTATION
%assign i 0
%rep 3
H_FILT_AVG 4, i
SWAP 0,1,2,3,4,5
%assign i i+1
%endrep
H_FILT_AVG 4, i, 0

INIT_XMM sse2
RESET_MM_PERMUTATION
%assign i 0
%rep 6
%if i==1
H_FILT_AVG 8, i, 0
%else
H_FILT_AVG 8, i
%endif
SWAP 0,1,2,3,4,5
%assign i i+1
%endrep

%macro MC11 2
; this REALLY needs x86_64
cglobal_mc %1, mc11, %2, 3,6,8
    mov      r4, r1
.body:
    PRELOAD_V

    sub      r0, r2
    sub      r4, r2
    mov      r5, r2
    neg      r5
%assign j 0
%rep %2
    %assign i (j % 6)
    call v_filt%2_ %+ i %+ _10
    call h_filt%2_ %+ i %+ _10
%if %2==8 && i==1
    movu     m5, [r1+r5]
%endif
    OP_MOV [r0], m0
    SWAP 0,1,2,3,4,5
    %assign j j+1
%endrep
    ret
%endmacro

MC MC11

;-----------------------------------------------------------------------------
; void ff_h264_qpel_mc31(uint8_t *dst, uint8_t *src, int stride)
;-----------------------------------------------------------------------------
%macro MC31 2
cglobal_mc %1, mc31, %2, 3,6,8
    mov r4, r1
    add r1, 2
    jmp stub_%1_h264_qpel%2_mc11_10 %+ SUFFIX %+ .body
%endmacro

MC MC31

;-----------------------------------------------------------------------------
; void ff_h264_qpel_mc13(uint8_t *dst, uint8_t *src, int stride)
;-----------------------------------------------------------------------------
%macro MC13 2
cglobal_mc %1, mc13, %2, 3,7,12
    lea r4, [r1+r2]
    jmp stub_%1_h264_qpel%2_mc11_10 %+ SUFFIX %+ .body
%endmacro

MC MC13

;-----------------------------------------------------------------------------
; void ff_h264_qpel_mc33(uint8_t *dst, uint8_t *src, int stride)
;-----------------------------------------------------------------------------
%macro MC33 2
cglobal_mc %1, mc33, %2, 3,6,8
    lea r4, [r1+r2]
    add r1, 2
    jmp stub_%1_h264_qpel%2_mc11_10 %+ SUFFIX %+ .body
%endmacro

MC MC33

;-----------------------------------------------------------------------------
; void ff_h264_qpel_mc22(uint8_t *dst, uint8_t *src, int stride)
;-----------------------------------------------------------------------------
%macro FILT_H2 3
    psubw  %1, %2  ; a-b
    psubw  %2, %3  ; b-c
    psllw  %2, 2
    psubw  %1, %2  ; a-5*b+4*c
    psllw  %3, 4
    paddw  %1, %3  ; a-5*b+20*c
%endmacro

%macro FILT_VNRD 8
    movu     %6, [r1]
    paddw    %1, %6
    mova     %7, %2
    paddw    %7, %5
    mova     %8, %3
    paddw    %8, %4
    FILT_H2  %1, %7, %8
%endmacro

%macro HV 1
%if mmsize==16
%define PAD 12
%define COUNT 2
%else
%define PAD 4
%define COUNT 3
%endif
put_hv%1_10:
    neg      r2           ; This actually saves instructions
    lea      r1, [r1+r2*2-mmsize+PAD]
    lea      r4, [rsp+PAD+gprsize]
    mov     r3d, COUNT
.v_loop:
    movu     m0, [r1]
    sub      r1, r2
    movu     m1, [r1]
    sub      r1, r2
    movu     m2, [r1]
    sub      r1, r2
    movu     m3, [r1]
    sub      r1, r2
    movu     m4, [r1]
    sub      r1, r2
%assign i 0
%rep %1-1
    FILT_VNRD m0, m1, m2, m3, m4, m5, m6, m7
    psubw    m0, [pad20]
    movu     [r4+i*mmsize*3], m0
    sub      r1, r2
    SWAP 0,1,2,3,4,5
%assign i i+1
%endrep
    FILT_VNRD m0, m1, m2, m3, m4, m5, m6, m7
    psubw    m0, [pad20]
    movu     [r4+i*mmsize*3], m0
    add      r4, mmsize
    lea      r1, [r1+r2*8+mmsize]
%if %1==8
    lea      r1, [r1+r2*4]
%endif
    dec      r3d
    jg .v_loop
    neg      r2
    ret
%endmacro

INIT_MMX mmxext
HV 4
INIT_XMM sse2
HV 8

%macro H_LOOP 1
%if num_mmregs > 8
    %define s1 m8
    %define s2 m9
    %define s3 m10
    %define d1 m11
%else
    %define s1 [tap1]
    %define s2 [tap2]
    %define s3 [tap3]
    %define d1 [depad]
%endif
h%1_loop_op:
    movu       m1, [r1+mmsize-4]
    movu       m2, [r1+mmsize-2]
    mova       m3, [r1+mmsize+0]
    movu       m4, [r1+mmsize+2]
    movu       m5, [r1+mmsize+4]
    movu       m6, [r1+mmsize+6]
%if num_mmregs > 8
    pmaddwd    m1, s1
    pmaddwd    m2, s1
    pmaddwd    m3, s2
    pmaddwd    m4, s2
    pmaddwd    m5, s3
    pmaddwd    m6, s3
    paddd      m1, d1
    paddd      m2, d1
%else
    mova       m0, s1
    pmaddwd    m1, m0
    pmaddwd    m2, m0
    mova       m0, s2
    pmaddwd    m3, m0
    pmaddwd    m4, m0
    mova       m0, s3
    pmaddwd    m5, m0
    pmaddwd    m6, m0
    mova       m0, d1
    paddd      m1, m0
    paddd      m2, m0
%endif
    paddd      m3, m5
    paddd      m4, m6
    paddd      m1, m3
    paddd      m2, m4
    psrad      m1, 10
    psrad      m2, 10
    pslld      m2, 16
    pand       m1, [pd_0f]
    por        m1, m2
%if num_mmregs <= 8
    pxor       m0, m0
%endif
    CLIPW      m1, m0, m7
    add        r1, mmsize*3
    ret
%endmacro

INIT_MMX mmxext
H_LOOP 4
INIT_XMM sse2
H_LOOP 8

%macro MC22 2
cglobal_mc %1, mc22, %2, 3,7,12
%define PAD mmsize*8*4*2      ; SIZE*16*4*sizeof(pixel)
    mov      r6, rsp          ; backup stack pointer
    and     rsp, ~(mmsize-1)  ; align stack
    sub     rsp, PAD

    call put_hv%2_10

    mov       r3d, %2
    mova       m7, [pw_pixel_max]
%if num_mmregs > 8
    pxor       m0, m0
    mova       m8, [tap1]
    mova       m9, [tap2]
    mova      m10, [tap3]
    mova      m11, [depad]
%endif
    mov        r1, rsp
.h_loop:
    call h%2_loop_op

    OP_MOV   [r0], m1
    add        r0, r2
    dec       r3d
    jg .h_loop

    mov     rsp, r6          ; restore stack pointer
    ret
%endmacro

MC MC22

;-----------------------------------------------------------------------------
; void ff_h264_qpel_mc12(uint8_t *dst, uint8_t *src, int stride)
;-----------------------------------------------------------------------------
%macro MC12 2
cglobal_mc %1, mc12, %2, 3,7,12
%define PAD mmsize*8*4*2        ; SIZE*16*4*sizeof(pixel)
    mov        r6, rsp          ; backup stack pointer
    and       rsp, ~(mmsize-1)  ; align stack
    sub       rsp, PAD

    call put_hv%2_10

    xor       r4d, r4d
.body:
    mov       r3d, %2
    pxor       m0, m0
    mova       m7, [pw_pixel_max]
%if num_mmregs > 8
    mova       m8, [tap1]
    mova       m9, [tap2]
    mova      m10, [tap3]
    mova      m11, [depad]
%endif
    mov        r1, rsp
.h_loop:
    call h%2_loop_op

    movu       m3, [r1+r4-2*mmsize] ; movu needed for mc32, etc
    paddw      m3, [depad2]
    psrlw      m3, 5
    psubw      m3, [unpad]
    CLIPW      m3, m0, m7
    pavgw      m1, m3

    OP_MOV   [r0], m1
    add        r0, r2
    dec       r3d
    jg .h_loop

    mov     rsp, r6          ; restore stack pointer
    ret
%endmacro

MC MC12

;-----------------------------------------------------------------------------
; void ff_h264_qpel_mc32(uint8_t *dst, uint8_t *src, int stride)
;-----------------------------------------------------------------------------
%macro MC32 2
cglobal_mc %1, mc32, %2, 3,7,12
%define PAD mmsize*8*3*2  ; SIZE*16*4*sizeof(pixel)
    mov  r6, rsp          ; backup stack pointer
    and rsp, ~(mmsize-1)  ; align stack
    sub rsp, PAD

    call put_hv%2_10

    mov r4d, 2            ; sizeof(pixel)
    jmp stub_%1_h264_qpel%2_mc12_10 %+ SUFFIX %+ .body
%endmacro

MC MC32

;-----------------------------------------------------------------------------
; void ff_h264_qpel_mc21(uint8_t *dst, uint8_t *src, int stride)
;-----------------------------------------------------------------------------
%macro H_NRD 1
put_h%1_10:
    add       rsp, gprsize
    mov       r3d, %1
    xor       r4d, r4d
    mova       m6, [pad20]
.nextrow:
    movu       m2, [r5-4]
    movu       m3, [r5-2]
    movu       m4, [r5+0]
    ADDW       m2, [r5+6], m5
    ADDW       m3, [r5+4], m5
    ADDW       m4, [r5+2], m5

    FILT_H2    m2, m3, m4
    psubw      m2, m6
    mova [rsp+r4], m2
    add       r4d, mmsize*3
    add        r5, r2
    dec       r3d
    jg .nextrow
    sub       rsp, gprsize
    ret
%endmacro

INIT_MMX mmxext
H_NRD 4
INIT_XMM sse2
H_NRD 8

%macro MC21 2
cglobal_mc %1, mc21, %2, 3,7,12
    mov   r5, r1
.body:
%define PAD mmsize*8*3*2   ; SIZE*16*4*sizeof(pixel)
    mov   r6, rsp          ; backup stack pointer
    and  rsp, ~(mmsize-1)  ; align stack

    sub  rsp, PAD
    call put_h%2_10

    sub  rsp, PAD
    call put_hv%2_10

    mov r4d, PAD-mmsize    ; H buffer
    jmp stub_%1_h264_qpel%2_mc12_10 %+ SUFFIX %+ .body
%endmacro

MC MC21

;-----------------------------------------------------------------------------
; void ff_h264_qpel_mc23(uint8_t *dst, uint8_t *src, int stride)
;-----------------------------------------------------------------------------
%macro MC23 2
cglobal_mc %1, mc23, %2, 3,7,12
    lea   r5, [r1+r2]
    jmp stub_%1_h264_qpel%2_mc21_10 %+ SUFFIX %+ .body
%endmacro

MC MC23
Commit	Line	Data
	1	;*****************************************************************************
	2	;* MMX/SSE2/AVX-optimized 10-bit H.264 qpel code
	3	;*****************************************************************************
	4	;* Copyright (C) 2011 x264 project
	5	;*
	6	;* Authors: Daniel Kang <daniel.d.kang@gmail.com>
	7	;*
	8	;* This file is part of FFmpeg.
	9	;*
	10	;* FFmpeg is free software; you can redistribute it and/or
	11	;* modify it under the terms of the GNU Lesser General Public
	12	;* License as published by the Free Software Foundation; either
	13	;* version 2.1 of the License, or (at your option) any later version.
	14	;*
	15	;* FFmpeg is distributed in the hope that it will be useful,
	16	;* but WITHOUT ANY WARRANTY; without even the implied warranty of
	17	;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GNU
	18	;* Lesser General Public License for more details.
	19	;*
	20	;* You should have received a copy of the GNU Lesser General Public
	21	;* License along with FFmpeg; if not, write to the Free Software
	22	;* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
	23	;******************************************************************************
	24
	25	%include "libavutil/x86/x86util.asm"
	26
	27	SECTION_RODATA 32
	28
	29	cextern pw_16
	30	cextern pw_1
	31	pb_0: times 32 db 0 ; we do not use cextern here as old llvm-gcc fails to align it correctly
	32
	33	pw_pixel_max: times 8 dw ((1 << 10)-1)
	34
	35	pad10: times 8 dw 10*1023
	36	pad20: times 8 dw 20*1023
	37	pad30: times 8 dw 30*1023
	38	depad: times 4 dd 32201023 + 512
	39	depad2: times 8 dw 201023 + 161022 + 16
	40	unpad: times 8 dw 16*1022/32 ; needs to be mod 16
	41
	42	tap1: times 4 dw 1, -5
	43	tap2: times 4 dw 20, 20
	44	tap3: times 4 dw -5, 1
	45	pd_0f: times 4 dd 0xffff
	46
	47	SECTION .text
	48
	49
	50	%macro AVG_MOV 2
	51	pavgw %2, %1
	52	mova %1, %2
	53	%endmacro
	54
	55	%macro ADDW 3
	56	%if mmsize == 8
	57	paddw %1, %2
	58	%else
	59	movu %3, %2
	60	paddw %1, %3
	61	%endif
	62	%endmacro
	63
	64	%macro FILT_H 4
	65	paddw %1, %4
	66	psubw %1, %2 ; a-b
	67	psraw %1, 2 ; (a-b)/4
	68	psubw %1, %2 ; (a-b)/4-b
	69	paddw %1, %3 ; (a-b)/4-b+c
	70	psraw %1, 2 ; ((a-b)/4-b+c)/4
	71	paddw %1, %3 ; ((a-b)/4-b+c)/4+c = (a-5b+20c)/16
	72	%endmacro
	73
	74	%macro PRELOAD_V 0
	75	lea r3, [r2*3]
	76	sub r1, r3
	77	movu m0, [r1+r2]
	78	movu m1, [r1+r2*2]
	79	add r1, r3
	80	movu m2, [r1]
	81	movu m3, [r1+r2]
	82	movu m4, [r1+r2*2]
	83	add r1, r3
	84	%endmacro
	85
	86	%macro FILT_V 8
	87	movu %6, [r1]
	88	paddw %1, %6
	89	mova %7, %2
	90	paddw %7, %5
	91	mova %8, %3
	92	paddw %8, %4
	93	FILT_H %1, %7, %8, [pw_16]
	94	psraw %1, 1
	95	CLIPW %1, [pb_0], [pw_pixel_max]
	96	%endmacro
	97
	98	%macro MC 1
	99	%define OP_MOV mova
	100	INIT_MMX mmxext
	101	%1 put, 4
	102	INIT_XMM sse2
	103	%1 put, 8
	104
	105	%define OP_MOV AVG_MOV
	106	INIT_MMX mmxext
	107	%1 avg, 4
	108	INIT_XMM sse2
	109	%1 avg, 8
	110	%endmacro
	111
	112	%macro MCAxA_OP 7
	113	%if ARCH_X86_32
	114	cglobal %1_h264_qpel%4_%2_10, %5,%6,%7
	115	call stub_%1_h264_qpel%3_%2_10 %+ SUFFIX
	116	mov r0, r0m
	117	mov r1, r1m
	118	add r0, %3*2
	119	add r1, %3*2
	120	call stub_%1_h264_qpel%3_%2_10 %+ SUFFIX
	121	mov r0, r0m
	122	mov r1, r1m
	123	lea r0, [r0+r2*%3]
	124	lea r1, [r1+r2*%3]
	125	call stub_%1_h264_qpel%3_%2_10 %+ SUFFIX
	126	mov r0, r0m
	127	mov r1, r1m
	128	lea r0, [r0+r2%3+%32]
	129	lea r1, [r1+r2%3+%32]
	130	call stub_%1_h264_qpel%3_%2_10 %+ SUFFIX
	131	RET
	132	%else ; ARCH_X86_64
	133	cglobal %1_h264_qpel%4_%2_10, %5,%6 + 2,%7
	134	mov r%6, r0
	135	%assign p1 %6+1
	136	mov r %+ p1, r1
	137	call stub_%1_h264_qpel%3_%2_10 %+ SUFFIX
	138	lea r0, [r%6+%3*2]
	139	lea r1, [r %+ p1+%3*2]
	140	call stub_%1_h264_qpel%3_%2_10 %+ SUFFIX
	141	lea r0, [r%6+r2*%3]
	142	lea r1, [r %+ p1+r2*%3]
	143	call stub_%1_h264_qpel%3_%2_10 %+ SUFFIX
	144	lea r0, [r%6+r2%3+%32]
	145	lea r1, [r %+ p1+r2%3+%32]
	146	%if UNIX64 == 0 ; fall through to function
	147	call stub_%1_h264_qpel%3_%2_10 %+ SUFFIX
	148	RET
	149	%endif
	150	%endif
	151	%endmacro
	152
	153	;cpu, put/avg, mc, 4/8, ...
	154	%macro cglobal_mc 6
	155	%assign i %3*2
	156	%if ARCH_X86_32 \|\| cpuflag(sse2)
	157	MCAxA_OP %1, %2, %3, i, %4,%5,%6
	158	%endif
	159
	160	cglobal %1_h264_qpel%3_%2_10, %4,%5,%6
	161	%if UNIX64 == 0 ; no prologue or epilogue for UNIX64
	162	call stub_%1_h264_qpel%3_%2_10 %+ SUFFIX
	163	RET
	164	%endif
	165
	166	stub_%1_h264_qpel%3_%2_10 %+ SUFFIX:
	167	%endmacro
	168
	169	;-----------------------------------------------------------------------------
	170	; void ff_h264_qpel_mc00(uint8_t dst, uint8_t src, int stride)
	171	;-----------------------------------------------------------------------------
	172	%macro COPY4 0
	173	movu m0, [r1 ]
	174	OP_MOV [r0 ], m0
	175	movu m0, [r1+r2 ]
	176	OP_MOV [r0+r2 ], m0
	177	movu m0, [r1+r2*2]
	178	OP_MOV [r0+r2*2], m0
	179	movu m0, [r1+r3 ]
	180	OP_MOV [r0+r3 ], m0
	181	%endmacro
	182
	183	%macro MC00 1
	184	INIT_MMX mmxext
	185	cglobal_mc %1, mc00, 4, 3,4,0
	186	lea r3, [r2*3]
	187	COPY4
	188	ret
	189
	190	INIT_XMM sse2
	191	cglobal %1_h264_qpel8_mc00_10, 3,4
	192	lea r3, [r2*3]
	193	COPY4
	194	lea r0, [r0+r2*4]
	195	lea r1, [r1+r2*4]
	196	COPY4
	197	RET
	198
	199	cglobal %1_h264_qpel16_mc00_10, 3,4
	200	mov r3d, 8
	201	.loop:
	202	movu m0, [r1 ]
	203	movu m1, [r1 +16]
	204	OP_MOV [r0 ], m0
	205	OP_MOV [r0 +16], m1
	206	movu m0, [r1+r2 ]
	207	movu m1, [r1+r2+16]
	208	OP_MOV [r0+r2 ], m0
	209	OP_MOV [r0+r2+16], m1
	210	lea r0, [r0+r2*2]
	211	lea r1, [r1+r2*2]
	212	dec r3d
	213	jg .loop
	214	REP_RET
	215	%endmacro
	216
	217	%define OP_MOV mova
	218	MC00 put
	219
	220	%define OP_MOV AVG_MOV
	221	MC00 avg
	222
	223	;-----------------------------------------------------------------------------
	224	; void ff_h264_qpel_mc20(uint8_t dst, uint8_t src, int stride)
	225	;-----------------------------------------------------------------------------
	226	%macro MC_CACHE 1
	227	%define OP_MOV mova
	228	INIT_MMX mmxext
	229	%1 put, 4
	230	INIT_XMM sse2, cache64
	231	%1 put, 8
	232	INIT_XMM ssse3, cache64
	233	%1 put, 8
	234	INIT_XMM sse2
	235	%1 put, 8
	236
	237	%define OP_MOV AVG_MOV
	238	INIT_MMX mmxext
	239	%1 avg, 4
	240	INIT_XMM sse2, cache64
	241	%1 avg, 8
	242	INIT_XMM ssse3, cache64
	243	%1 avg, 8
	244	INIT_XMM sse2
	245	%1 avg, 8
	246	%endmacro
	247
	248	%macro MC20 2
	249	cglobal_mc %1, mc20, %2, 3,4,9
	250	mov r3d, %2
	251	mova m1, [pw_pixel_max]
	252	%if num_mmregs > 8
	253	mova m8, [pw_16]
	254	%define p16 m8
	255	%else
	256	%define p16 [pw_16]
	257	%endif
	258	.nextrow:
	259	%if %0 == 4
	260	movu m2, [r1-4]
	261	movu m3, [r1-2]
	262	movu m4, [r1+0]
	263	ADDW m2, [r1+6], m5
	264	ADDW m3, [r1+4], m5
	265	ADDW m4, [r1+2], m5
	266	%else ; movu is slow on these processors
	267	%if mmsize==16
	268	movu m2, [r1-4]
	269	movu m0, [r1+6]
	270	mova m6, m0
	271	psrldq m0, 6
	272
	273	paddw m6, m2
	274	PALIGNR m3, m0, m2, 2, m5
	275	PALIGNR m7, m0, m2, 8, m5
	276	paddw m3, m7
	277	PALIGNR m4, m0, m2, 4, m5
	278	PALIGNR m7, m0, m2, 6, m5
	279	paddw m4, m7
	280	SWAP 2, 6
	281	%else
	282	movu m2, [r1-4]
	283	movu m6, [r1+4]
	284	PALIGNR m3, m6, m2, 2, m5
	285	paddw m3, m6
	286	PALIGNR m4, m6, m2, 4, m5
	287	PALIGNR m7, m6, m2, 6, m5
	288	paddw m4, m7
	289	paddw m2, [r1+6]
	290	%endif
	291	%endif
	292
	293	FILT_H m2, m3, m4, p16
	294	psraw m2, 1
	295	pxor m0, m0
	296	CLIPW m2, m0, m1
	297	OP_MOV [r0], m2
	298	add r0, r2
	299	add r1, r2
	300	dec r3d
	301	jg .nextrow
	302	rep ret
	303	%endmacro
	304
	305	MC_CACHE MC20
	306
	307	;-----------------------------------------------------------------------------
	308	; void ff_h264_qpel_mc30(uint8_t dst, uint8_t src, int stride)
	309	;-----------------------------------------------------------------------------
	310	%macro MC30 2
	311	cglobal_mc %1, mc30, %2, 3,5,9
	312	lea r4, [r1+2]
	313	jmp stub_%1_h264_qpel%2_mc10_10 %+ SUFFIX %+ .body
	314	%endmacro
	315
	316	MC_CACHE MC30
	317
	318	;-----------------------------------------------------------------------------
	319	; void ff_h264_qpel_mc10(uint8_t dst, uint8_t src, int stride)
	320	;-----------------------------------------------------------------------------
	321	%macro MC10 2
	322	cglobal_mc %1, mc10, %2, 3,5,9
	323	mov r4, r1
	324	.body:
	325	mov r3d, %2
	326	mova m1, [pw_pixel_max]
	327	%if num_mmregs > 8
	328	mova m8, [pw_16]
	329	%define p16 m8
	330	%else
	331	%define p16 [pw_16]
	332	%endif
	333	.nextrow:
	334	%if %0 == 4
	335	movu m2, [r1-4]
	336	movu m3, [r1-2]
	337	movu m4, [r1+0]
	338	ADDW m2, [r1+6], m5
	339	ADDW m3, [r1+4], m5
	340	ADDW m4, [r1+2], m5
	341	%else ; movu is slow on these processors
	342	%if mmsize==16
	343	movu m2, [r1-4]
	344	movu m0, [r1+6]
	345	mova m6, m0
	346	psrldq m0, 6
	347
	348	paddw m6, m2
	349	PALIGNR m3, m0, m2, 2, m5
	350	PALIGNR m7, m0, m2, 8, m5
	351	paddw m3, m7
	352	PALIGNR m4, m0, m2, 4, m5
	353	PALIGNR m7, m0, m2, 6, m5
	354	paddw m4, m7
	355	SWAP 2, 6
	356	%else
	357	movu m2, [r1-4]
	358	movu m6, [r1+4]
	359	PALIGNR m3, m6, m2, 2, m5
	360	paddw m3, m6
	361	PALIGNR m4, m6, m2, 4, m5
	362	PALIGNR m7, m6, m2, 6, m5
	363	paddw m4, m7
	364	paddw m2, [r1+6]
	365	%endif
	366	%endif
	367
	368	FILT_H m2, m3, m4, p16
	369	psraw m2, 1
	370	pxor m0, m0
	371	CLIPW m2, m0, m1
	372	movu m3, [r4]
	373	pavgw m2, m3
	374	OP_MOV [r0], m2
	375	add r0, r2
	376	add r1, r2
	377	add r4, r2
	378	dec r3d
	379	jg .nextrow
	380	rep ret
	381	%endmacro
	382
	383	MC_CACHE MC10
	384
	385	;-----------------------------------------------------------------------------
	386	; void ff_h264_qpel_mc02(uint8_t dst, uint8_t src, int stride)
	387	;-----------------------------------------------------------------------------
	388	%macro V_FILT 10
	389	v_filt%9_%10_10
	390	add r4, r2
	391	.no_addr4:
	392	FILT_V m0, m1, m2, m3, m4, m5, m6, m7
	393	add r1, r2
	394	add r0, r2
	395	ret
	396	%endmacro
	397
	398	INIT_MMX mmxext
	399	RESET_MM_PERMUTATION
	400	%assign i 0
	401	%rep 4
	402	V_FILT m0, m1, m2, m3, m4, m5, m6, m7, 4, i
	403	SWAP 0,1,2,3,4,5
	404	%assign i i+1
	405	%endrep
	406
	407	INIT_XMM sse2
	408	RESET_MM_PERMUTATION
	409	%assign i 0
	410	%rep 6
	411	V_FILT m0, m1, m2, m3, m4, m5, m6, m7, 8, i
	412	SWAP 0,1,2,3,4,5
	413	%assign i i+1
	414	%endrep
	415
	416	%macro MC02 2
	417	cglobal_mc %1, mc02, %2, 3,4,8
	418	PRELOAD_V
	419
	420	sub r0, r2
	421	%assign j 0
	422	%rep %2
	423	%assign i (j % 6)
	424	call v_filt%2_ %+ i %+ _10.no_addr4
	425	OP_MOV [r0], m0
	426	SWAP 0,1,2,3,4,5
	427	%assign j j+1
	428	%endrep
	429	ret
	430	%endmacro
	431
	432	MC MC02
	433
	434	;-----------------------------------------------------------------------------
	435	; void ff_h264_qpel_mc01(uint8_t dst, uint8_t src, int stride)
	436	;-----------------------------------------------------------------------------
	437	%macro MC01 2
	438	cglobal_mc %1, mc01, %2, 3,5,8
	439	mov r4, r1
	440	.body:
	441	PRELOAD_V
	442
	443	sub r4, r2
	444	sub r0, r2
	445	%assign j 0
	446	%rep %2
	447	%assign i (j % 6)
	448	call v_filt%2_ %+ i %+ _10
	449	movu m7, [r4]
	450	pavgw m0, m7
	451	OP_MOV [r0], m0
	452	SWAP 0,1,2,3,4,5
	453	%assign j j+1
	454	%endrep
	455	ret
	456	%endmacro
	457
	458	MC MC01
	459
	460	;-----------------------------------------------------------------------------
	461	; void ff_h264_qpel_mc03(uint8_t dst, uint8_t src, int stride)
	462	;-----------------------------------------------------------------------------
	463	%macro MC03 2
	464	cglobal_mc %1, mc03, %2, 3,5,8
	465	lea r4, [r1+r2]
	466	jmp stub_%1_h264_qpel%2_mc01_10 %+ SUFFIX %+ .body
	467	%endmacro
	468
	469	MC MC03
	470
	471	;-----------------------------------------------------------------------------
	472	; void ff_h264_qpel_mc11(uint8_t dst, uint8_t src, int stride)
	473	;-----------------------------------------------------------------------------
	474	%macro H_FILT_AVG 2-3
	475	h_filt%1_%2_10:
	476	;FILT_H with fewer registers and averaged with the FILT_V result
	477	;m6,m7 are tmp registers, m0 is the FILT_V result, the rest are to be used next in the next iteration
	478	;unfortunately I need three registers, so m5 will have to be re-read from memory
	479	movu m5, [r4-4]
	480	ADDW m5, [r4+6], m7
	481	movu m6, [r4-2]
	482	ADDW m6, [r4+4], m7
	483	paddw m5, [pw_16]
	484	psubw m5, m6 ; a-b
	485	psraw m5, 2 ; (a-b)/4
	486	psubw m5, m6 ; (a-b)/4-b
	487	movu m6, [r4+0]
	488	ADDW m6, [r4+2], m7
	489	paddw m5, m6 ; (a-b)/4-b+c
	490	psraw m5, 2 ; ((a-b)/4-b+c)/4
	491	paddw m5, m6 ; ((a-b)/4-b+c)/4+c = (a-5b+20c)/16
	492	psraw m5, 1
	493	CLIPW m5, [pb_0], [pw_pixel_max]
	494	;avg FILT_V, FILT_H
	495	pavgw m0, m5
	496	%if %0!=4
	497	movu m5, [r1+r5]
	498	%endif
	499	ret
	500	%endmacro
	501
	502	INIT_MMX mmxext
	503	RESET_MM_PERMUTATION
	504	%assign i 0
	505	%rep 3
	506	H_FILT_AVG 4, i
	507	SWAP 0,1,2,3,4,5
	508	%assign i i+1
	509	%endrep
	510	H_FILT_AVG 4, i, 0
	511
	512	INIT_XMM sse2
	513	RESET_MM_PERMUTATION
	514	%assign i 0
	515	%rep 6
	516	%if i==1
	517	H_FILT_AVG 8, i, 0
	518	%else
	519	H_FILT_AVG 8, i
	520	%endif
	521	SWAP 0,1,2,3,4,5
	522	%assign i i+1
	523	%endrep
	524
	525	%macro MC11 2
	526	; this REALLY needs x86_64
	527	cglobal_mc %1, mc11, %2, 3,6,8
	528	mov r4, r1
	529	.body:
	530	PRELOAD_V
	531
	532	sub r0, r2
	533	sub r4, r2
	534	mov r5, r2
	535	neg r5
	536	%assign j 0
	537	%rep %2
	538	%assign i (j % 6)
	539	call v_filt%2_ %+ i %+ _10
	540	call h_filt%2_ %+ i %+ _10
	541	%if %2==8 && i==1
	542	movu m5, [r1+r5]
	543	%endif
	544	OP_MOV [r0], m0
	545	SWAP 0,1,2,3,4,5
	546	%assign j j+1
	547	%endrep
	548	ret
	549	%endmacro
	550
	551	MC MC11
	552
	553	;-----------------------------------------------------------------------------
	554	; void ff_h264_qpel_mc31(uint8_t dst, uint8_t src, int stride)
	555	;-----------------------------------------------------------------------------
	556	%macro MC31 2
	557	cglobal_mc %1, mc31, %2, 3,6,8
	558	mov r4, r1
	559	add r1, 2
	560	jmp stub_%1_h264_qpel%2_mc11_10 %+ SUFFIX %+ .body
	561	%endmacro
	562
	563	MC MC31
	564
	565	;-----------------------------------------------------------------------------
	566	; void ff_h264_qpel_mc13(uint8_t dst, uint8_t src, int stride)
	567	;-----------------------------------------------------------------------------
	568	%macro MC13 2
	569	cglobal_mc %1, mc13, %2, 3,7,12
	570	lea r4, [r1+r2]
	571	jmp stub_%1_h264_qpel%2_mc11_10 %+ SUFFIX %+ .body
	572	%endmacro
	573
	574	MC MC13
	575
	576	;-----------------------------------------------------------------------------
	577	; void ff_h264_qpel_mc33(uint8_t dst, uint8_t src, int stride)
	578	;-----------------------------------------------------------------------------
	579	%macro MC33 2
	580	cglobal_mc %1, mc33, %2, 3,6,8
	581	lea r4, [r1+r2]
	582	add r1, 2
	583	jmp stub_%1_h264_qpel%2_mc11_10 %+ SUFFIX %+ .body
	584	%endmacro
	585
	586	MC MC33
	587
	588	;-----------------------------------------------------------------------------
	589	; void ff_h264_qpel_mc22(uint8_t dst, uint8_t src, int stride)
	590	;-----------------------------------------------------------------------------
	591	%macro FILT_H2 3
	592	psubw %1, %2 ; a-b
	593	psubw %2, %3 ; b-c
	594	psllw %2, 2
	595	psubw %1, %2 ; a-5b+4c
	596	psllw %3, 4
	597	paddw %1, %3 ; a-5b+20c
	598	%endmacro
	599
	600	%macro FILT_VNRD 8
	601	movu %6, [r1]
	602	paddw %1, %6
	603	mova %7, %2
	604	paddw %7, %5
	605	mova %8, %3
	606	paddw %8, %4
	607	FILT_H2 %1, %7, %8
	608	%endmacro
	609
	610	%macro HV 1
	611	%if mmsize==16
	612	%define PAD 12
	613	%define COUNT 2
	614	%else
	615	%define PAD 4
	616	%define COUNT 3
	617	%endif
	618	put_hv%1_10:
	619	neg r2 ; This actually saves instructions
	620	lea r1, [r1+r2*2-mmsize+PAD]
	621	lea r4, [rsp+PAD+gprsize]
	622	mov r3d, COUNT
	623	.v_loop:
	624	movu m0, [r1]
	625	sub r1, r2
	626	movu m1, [r1]
	627	sub r1, r2
	628	movu m2, [r1]
	629	sub r1, r2
	630	movu m3, [r1]
	631	sub r1, r2
	632	movu m4, [r1]
	633	sub r1, r2
	634	%assign i 0
	635	%rep %1-1
	636	FILT_VNRD m0, m1, m2, m3, m4, m5, m6, m7
	637	psubw m0, [pad20]
	638	movu [r4+immsize3], m0
	639	sub r1, r2
	640	SWAP 0,1,2,3,4,5
	641	%assign i i+1
	642	%endrep
	643	FILT_VNRD m0, m1, m2, m3, m4, m5, m6, m7
	644	psubw m0, [pad20]
	645	movu [r4+immsize3], m0
	646	add r4, mmsize
	647	lea r1, [r1+r2*8+mmsize]
	648	%if %1==8
	649	lea r1, [r1+r2*4]
	650	%endif
	651	dec r3d
	652	jg .v_loop
	653	neg r2
	654	ret
	655	%endmacro
	656
	657	INIT_MMX mmxext
	658	HV 4
	659	INIT_XMM sse2
	660	HV 8
	661
	662	%macro H_LOOP 1
	663	%if num_mmregs > 8
	664	%define s1 m8
	665	%define s2 m9
	666	%define s3 m10
	667	%define d1 m11
	668	%else
	669	%define s1 [tap1]
	670	%define s2 [tap2]
	671	%define s3 [tap3]
	672	%define d1 [depad]
	673	%endif
	674	h%1_loop_op:
	675	movu m1, [r1+mmsize-4]
	676	movu m2, [r1+mmsize-2]
	677	mova m3, [r1+mmsize+0]
	678	movu m4, [r1+mmsize+2]
	679	movu m5, [r1+mmsize+4]
	680	movu m6, [r1+mmsize+6]
	681	%if num_mmregs > 8
	682	pmaddwd m1, s1
	683	pmaddwd m2, s1
	684	pmaddwd m3, s2
	685	pmaddwd m4, s2
	686	pmaddwd m5, s3
	687	pmaddwd m6, s3
	688	paddd m1, d1
	689	paddd m2, d1
	690	%else
	691	mova m0, s1
	692	pmaddwd m1, m0
	693	pmaddwd m2, m0
	694	mova m0, s2
	695	pmaddwd m3, m0
	696	pmaddwd m4, m0
	697	mova m0, s3
	698	pmaddwd m5, m0
	699	pmaddwd m6, m0
	700	mova m0, d1
	701	paddd m1, m0
	702	paddd m2, m0
	703	%endif
	704	paddd m3, m5
	705	paddd m4, m6
	706	paddd m1, m3
	707	paddd m2, m4
	708	psrad m1, 10
	709	psrad m2, 10
	710	pslld m2, 16
	711	pand m1, [pd_0f]
	712	por m1, m2
	713	%if num_mmregs <= 8
	714	pxor m0, m0
	715	%endif
	716	CLIPW m1, m0, m7
	717	add r1, mmsize*3
	718	ret
	719	%endmacro
	720
	721	INIT_MMX mmxext
	722	H_LOOP 4
	723	INIT_XMM sse2
	724	H_LOOP 8
	725
	726	%macro MC22 2
	727	cglobal_mc %1, mc22, %2, 3,7,12
	728	%define PAD mmsize842 ; SIZE164sizeof(pixel)
	729	mov r6, rsp ; backup stack pointer
	730	and rsp, ~(mmsize-1) ; align stack
	731	sub rsp, PAD
	732
	733	call put_hv%2_10
	734
	735	mov r3d, %2
	736	mova m7, [pw_pixel_max]
	737	%if num_mmregs > 8
	738	pxor m0, m0
	739	mova m8, [tap1]
	740	mova m9, [tap2]
	741	mova m10, [tap3]
	742	mova m11, [depad]
	743	%endif
	744	mov r1, rsp
	745	.h_loop:
	746	call h%2_loop_op
	747
	748	OP_MOV [r0], m1
	749	add r0, r2
	750	dec r3d
	751	jg .h_loop
	752
	753	mov rsp, r6 ; restore stack pointer
	754	ret
	755	%endmacro
	756
	757	MC MC22
	758
	759	;-----------------------------------------------------------------------------
	760	; void ff_h264_qpel_mc12(uint8_t dst, uint8_t src, int stride)
	761	;-----------------------------------------------------------------------------
	762	%macro MC12 2
	763	cglobal_mc %1, mc12, %2, 3,7,12
	764	%define PAD mmsize842 ; SIZE164sizeof(pixel)
	765	mov r6, rsp ; backup stack pointer
	766	and rsp, ~(mmsize-1) ; align stack
	767	sub rsp, PAD
	768
	769	call put_hv%2_10
	770
	771	xor r4d, r4d
	772	.body:
	773	mov r3d, %2
	774	pxor m0, m0
	775	mova m7, [pw_pixel_max]
	776	%if num_mmregs > 8
	777	mova m8, [tap1]
	778	mova m9, [tap2]
	779	mova m10, [tap3]
	780	mova m11, [depad]
	781	%endif
	782	mov r1, rsp
	783	.h_loop:
	784	call h%2_loop_op
	785
	786	movu m3, [r1+r4-2*mmsize] ; movu needed for mc32, etc
	787	paddw m3, [depad2]
	788	psrlw m3, 5
	789	psubw m3, [unpad]
	790	CLIPW m3, m0, m7
	791	pavgw m1, m3
	792
	793	OP_MOV [r0], m1
	794	add r0, r2
	795	dec r3d
	796	jg .h_loop
	797
	798	mov rsp, r6 ; restore stack pointer
	799	ret
	800	%endmacro
	801
	802	MC MC12
	803
	804	;-----------------------------------------------------------------------------
	805	; void ff_h264_qpel_mc32(uint8_t dst, uint8_t src, int stride)
	806	;-----------------------------------------------------------------------------
	807	%macro MC32 2
	808	cglobal_mc %1, mc32, %2, 3,7,12
	809	%define PAD mmsize832 ; SIZE164sizeof(pixel)
	810	mov r6, rsp ; backup stack pointer
	811	and rsp, ~(mmsize-1) ; align stack
	812	sub rsp, PAD
	813
	814	call put_hv%2_10
	815
	816	mov r4d, 2 ; sizeof(pixel)
	817	jmp stub_%1_h264_qpel%2_mc12_10 %+ SUFFIX %+ .body
	818	%endmacro
	819
	820	MC MC32
	821
	822	;-----------------------------------------------------------------------------
	823	; void ff_h264_qpel_mc21(uint8_t dst, uint8_t src, int stride)
	824	;-----------------------------------------------------------------------------
	825	%macro H_NRD 1
	826	put_h%1_10:
	827	add rsp, gprsize
	828	mov r3d, %1
	829	xor r4d, r4d
	830	mova m6, [pad20]
	831	.nextrow:
	832	movu m2, [r5-4]
	833	movu m3, [r5-2]
	834	movu m4, [r5+0]
	835	ADDW m2, [r5+6], m5
	836	ADDW m3, [r5+4], m5
	837	ADDW m4, [r5+2], m5
	838
	839	FILT_H2 m2, m3, m4
	840	psubw m2, m6
	841	mova [rsp+r4], m2
	842	add r4d, mmsize*3
	843	add r5, r2
	844	dec r3d
	845	jg .nextrow
	846	sub rsp, gprsize
	847	ret
	848	%endmacro
	849
	850	INIT_MMX mmxext
	851	H_NRD 4
	852	INIT_XMM sse2
	853	H_NRD 8
	854
	855	%macro MC21 2
	856	cglobal_mc %1, mc21, %2, 3,7,12
	857	mov r5, r1
	858	.body:
	859	%define PAD mmsize832 ; SIZE164sizeof(pixel)
	860	mov r6, rsp ; backup stack pointer
	861	and rsp, ~(mmsize-1) ; align stack
	862
	863	sub rsp, PAD
	864	call put_h%2_10
	865
	866	sub rsp, PAD
	867	call put_hv%2_10
	868
	869	mov r4d, PAD-mmsize ; H buffer
	870	jmp stub_%1_h264_qpel%2_mc12_10 %+ SUFFIX %+ .body
	871	%endmacro
	872
	873	MC MC21
	874
	875	;-----------------------------------------------------------------------------
	876	; void ff_h264_qpel_mc23(uint8_t dst, uint8_t src, int stride)
	877	;-----------------------------------------------------------------------------
	878	%macro MC23 2
	879	cglobal_mc %1, mc23, %2, 3,7,12
	880	lea r5, [r1+r2]
	881	jmp stub_%1_h264_qpel%2_mc21_10 %+ SUFFIX %+ .body
	882	%endmacro
	883
	884	MC MC23