[deb_ffmpeg.git] / ffmpeg / libavcodec / x86 / h264_idct_10bit.asm

;*****************************************************************************
;* MMX/SSE2/AVX-optimized 10-bit H.264 iDCT code
;*****************************************************************************
;* Copyright (C) 2005-2011 x264 project
;*
;* Authors: Daniel Kang <daniel.d.kang@gmail.com>
;*
;* This file is part of FFmpeg.
;*
;* FFmpeg is free software; you can redistribute it and/or
;* modify it under the terms of the GNU Lesser General Public
;* License as published by the Free Software Foundation; either
;* version 2.1 of the License, or (at your option) any later version.
;*
;* FFmpeg is distributed in the hope that it will be useful,
;* but WITHOUT ANY WARRANTY; without even the implied warranty of
;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
;* Lesser General Public License for more details.
;*
;* You should have received a copy of the GNU Lesser General Public
;* License along with FFmpeg; if not, write to the Free Software
;* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
;******************************************************************************

%include "libavutil/x86/x86util.asm"

SECTION_RODATA

pw_pixel_max: times 8 dw ((1 << 10)-1)
pd_32:        times 4 dd 32

SECTION .text

;-----------------------------------------------------------------------------
; void ff_h264_idct_add_10(pixel *dst, int16_t *block, int stride)
;-----------------------------------------------------------------------------
%macro STORE_DIFFx2 6
    psrad       %1, 6
    psrad       %2, 6
    packssdw    %1, %2
    movq        %3, [%5]
    movhps      %3, [%5+%6]
    paddsw      %1, %3
    CLIPW       %1, %4, [pw_pixel_max]
    movq      [%5], %1
    movhps [%5+%6], %1
%endmacro

%macro STORE_DIFF16 5
    psrad       %1, 6
    psrad       %2, 6
    packssdw    %1, %2
    paddsw      %1, [%5]
    CLIPW       %1, %3, %4
    mova      [%5], %1
%endmacro

;dst, in, stride
%macro IDCT4_ADD_10 3
    mova  m0, [%2+ 0]
    mova  m1, [%2+16]
    mova  m2, [%2+32]
    mova  m3, [%2+48]
    IDCT4_1D d,0,1,2,3,4,5
    TRANSPOSE4x4D 0,1,2,3,4
    paddd m0, [pd_32]
    IDCT4_1D d,0,1,2,3,4,5
    pxor  m5, m5
    mova [%2+ 0], m5
    mova [%2+16], m5
    mova [%2+32], m5
    mova [%2+48], m5
    STORE_DIFFx2 m0, m1, m4, m5, %1, %3
    lea   %1, [%1+%3*2]
    STORE_DIFFx2 m2, m3, m4, m5, %1, %3
%endmacro

%macro IDCT_ADD_10 0
cglobal h264_idct_add_10, 3,3
    IDCT4_ADD_10 r0, r1, r2
    RET
%endmacro

INIT_XMM sse2
IDCT_ADD_10
%if HAVE_AVX_EXTERNAL
INIT_XMM avx
IDCT_ADD_10
%endif

;-----------------------------------------------------------------------------
; void ff_h264_idct_add16_10(pixel *dst, const int *block_offset,
;                            int16_t *block, int stride,
;                            const uint8_t nnzc[6*8])
;-----------------------------------------------------------------------------
;;;;;;; NO FATE SAMPLES TRIGGER THIS
%macro ADD4x4IDCT 0
add4x4_idct %+ SUFFIX:
    add   r5, r0
    mova  m0, [r2+ 0]
    mova  m1, [r2+16]
    mova  m2, [r2+32]
    mova  m3, [r2+48]
    IDCT4_1D d,0,1,2,3,4,5
    TRANSPOSE4x4D 0,1,2,3,4
    paddd m0, [pd_32]
    IDCT4_1D d,0,1,2,3,4,5
    pxor  m5, m5
    mova  [r2+ 0], m5
    mova  [r2+16], m5
    mova  [r2+32], m5
    mova  [r2+48], m5
    STORE_DIFFx2 m0, m1, m4, m5, r5, r3
    lea   r5, [r5+r3*2]
    STORE_DIFFx2 m2, m3, m4, m5, r5, r3
    ret
%endmacro

INIT_XMM sse2
ALIGN 16
ADD4x4IDCT
%if HAVE_AVX_EXTERNAL
INIT_XMM avx
ALIGN 16
ADD4x4IDCT
%endif

%macro ADD16_OP 2
    cmp          byte [r4+%2], 0
    jz .skipblock%1
    mov         r5d, [r1+%1*4]
    call add4x4_idct %+ SUFFIX
.skipblock%1:
%if %1<15
    add          r2, 64
%endif
%endmacro

%macro IDCT_ADD16_10 0
cglobal h264_idct_add16_10, 5,6
    ADD16_OP 0, 4+1*8
    ADD16_OP 1, 5+1*8
    ADD16_OP 2, 4+2*8
    ADD16_OP 3, 5+2*8
    ADD16_OP 4, 6+1*8
    ADD16_OP 5, 7+1*8
    ADD16_OP 6, 6+2*8
    ADD16_OP 7, 7+2*8
    ADD16_OP 8, 4+3*8
    ADD16_OP 9, 5+3*8
    ADD16_OP 10, 4+4*8
    ADD16_OP 11, 5+4*8
    ADD16_OP 12, 6+3*8
    ADD16_OP 13, 7+3*8
    ADD16_OP 14, 6+4*8
    ADD16_OP 15, 7+4*8
    REP_RET
%endmacro

INIT_XMM sse2
IDCT_ADD16_10
%if HAVE_AVX_EXTERNAL
INIT_XMM avx
IDCT_ADD16_10
%endif

;-----------------------------------------------------------------------------
; void ff_h264_idct_dc_add_10(pixel *dst, int16_t *block, int stride)
;-----------------------------------------------------------------------------
%macro IDCT_DC_ADD_OP_10 3
    pxor      m5, m5
%if avx_enabled
    paddw     m1, m0, [%1+0   ]
    paddw     m2, m0, [%1+%2  ]
    paddw     m3, m0, [%1+%2*2]
    paddw     m4, m0, [%1+%3  ]
%else
    mova      m1, [%1+0   ]
    mova      m2, [%1+%2  ]
    mova      m3, [%1+%2*2]
    mova      m4, [%1+%3  ]
    paddw     m1, m0
    paddw     m2, m0
    paddw     m3, m0
    paddw     m4, m0
%endif
    CLIPW     m1, m5, m6
    CLIPW     m2, m5, m6
    CLIPW     m3, m5, m6
    CLIPW     m4, m5, m6
    mova [%1+0   ], m1
    mova [%1+%2  ], m2
    mova [%1+%2*2], m3
    mova [%1+%3  ], m4
%endmacro

INIT_MMX mmxext
cglobal h264_idct_dc_add_10,3,3
    movd      m0, [r1]
    mov dword [r1], 0
    paddd     m0, [pd_32]
    psrad     m0, 6
    lea       r1, [r2*3]
    pshufw    m0, m0, 0
    mova      m6, [pw_pixel_max]
    IDCT_DC_ADD_OP_10 r0, r2, r1
    RET

;-----------------------------------------------------------------------------
; void ff_h264_idct8_dc_add_10(pixel *dst, int16_t *block, int stride)
;-----------------------------------------------------------------------------
%macro IDCT8_DC_ADD 0
cglobal h264_idct8_dc_add_10,3,4,7
    movd      m0, [r1]
    mov dword[r1], 0
    paddd     m0, [pd_32]
    psrad     m0, 6
    lea       r1, [r2*3]
    SPLATW    m0, m0, 0
    mova      m6, [pw_pixel_max]
    IDCT_DC_ADD_OP_10 r0, r2, r1
    lea       r0, [r0+r2*4]
    IDCT_DC_ADD_OP_10 r0, r2, r1
    RET
%endmacro

INIT_XMM sse2
IDCT8_DC_ADD
%if HAVE_AVX_EXTERNAL
INIT_XMM avx
IDCT8_DC_ADD
%endif

;-----------------------------------------------------------------------------
; void ff_h264_idct_add16intra_10(pixel *dst, const int *block_offset,
;                                 int16_t *block, int stride,
;                                 const uint8_t nnzc[6*8])
;-----------------------------------------------------------------------------
%macro AC 1
.ac%1:
    mov  r5d, [r1+(%1+0)*4]
    call add4x4_idct %+ SUFFIX
    mov  r5d, [r1+(%1+1)*4]
    add  r2, 64
    call add4x4_idct %+ SUFFIX
    add  r2, 64
    jmp .skipadd%1
%endmacro

%assign last_block 16
%macro ADD16_OP_INTRA 2
    cmp      word [r4+%2], 0
    jnz .ac%1
    mov      r5d, [r2+ 0]
    or       r5d, [r2+64]
    jz .skipblock%1
    mov      r5d, [r1+(%1+0)*4]
    call idct_dc_add %+ SUFFIX
.skipblock%1:
%if %1<last_block-2
    add       r2, 128
%endif
.skipadd%1:
%endmacro

%macro IDCT_ADD16INTRA_10 0
idct_dc_add %+ SUFFIX:
    add       r5, r0
    movq      m0, [r2+ 0]
    movhps    m0, [r2+64]
    mov dword [r2+ 0], 0
    mov dword [r2+64], 0
    paddd     m0, [pd_32]
    psrad     m0, 6
    pshufhw   m0, m0, 0
    pshuflw   m0, m0, 0
    lea       r6, [r3*3]
    mova      m6, [pw_pixel_max]
    IDCT_DC_ADD_OP_10 r5, r3, r6
    ret

cglobal h264_idct_add16intra_10,5,7,8
    ADD16_OP_INTRA 0, 4+1*8
    ADD16_OP_INTRA 2, 4+2*8
    ADD16_OP_INTRA 4, 6+1*8
    ADD16_OP_INTRA 6, 6+2*8
    ADD16_OP_INTRA 8, 4+3*8
    ADD16_OP_INTRA 10, 4+4*8
    ADD16_OP_INTRA 12, 6+3*8
    ADD16_OP_INTRA 14, 6+4*8
    REP_RET
    AC 8
    AC 10
    AC 12
    AC 14
    AC 0
    AC 2
    AC 4
    AC 6
%endmacro

INIT_XMM sse2
IDCT_ADD16INTRA_10
%if HAVE_AVX_EXTERNAL
INIT_XMM avx
IDCT_ADD16INTRA_10
%endif

%assign last_block 36
;-----------------------------------------------------------------------------
; void ff_h264_idct_add8_10(pixel **dst, const int *block_offset,
;                           int16_t *block, int stride,
;                           const uint8_t nnzc[6*8])
;-----------------------------------------------------------------------------
%macro IDCT_ADD8 0
cglobal h264_idct_add8_10,5,8,7
%if ARCH_X86_64
    mov      r7, r0
%endif
    add      r2, 1024
    mov      r0, [r0]
    ADD16_OP_INTRA 16, 4+ 6*8
    ADD16_OP_INTRA 18, 4+ 7*8
    add      r2, 1024-128*2
%if ARCH_X86_64
    mov      r0, [r7+gprsize]
%else
    mov      r0, r0m
    mov      r0, [r0+gprsize]
%endif
    ADD16_OP_INTRA 32, 4+11*8
    ADD16_OP_INTRA 34, 4+12*8
    REP_RET
    AC 16
    AC 18
    AC 32
    AC 34

%endmacro ; IDCT_ADD8

INIT_XMM sse2
IDCT_ADD8
%if HAVE_AVX_EXTERNAL
INIT_XMM avx
IDCT_ADD8
%endif

;-----------------------------------------------------------------------------
; void ff_h264_idct8_add_10(pixel *dst, int16_t *block, int stride)
;-----------------------------------------------------------------------------
%macro IDCT8_1D 2
    SWAP      0, 1
    psrad     m4, m5, 1
    psrad     m1, m0, 1
    paddd     m4, m5
    paddd     m1, m0
    paddd     m4, m7
    paddd     m1, m5
    psubd     m4, m0
    paddd     m1, m3

    psubd     m0, m3
    psubd     m5, m3
    paddd     m0, m7
    psubd     m5, m7
    psrad     m3, 1
    psrad     m7, 1
    psubd     m0, m3
    psubd     m5, m7

    SWAP      1, 7
    psrad     m1, m7, 2
    psrad     m3, m4, 2
    paddd     m3, m0
    psrad     m0, 2
    paddd     m1, m5
    psrad     m5, 2
    psubd     m0, m4
    psubd     m7, m5

    SWAP      5, 6
    psrad     m4, m2, 1
    psrad     m6, m5, 1
    psubd     m4, m5
    paddd     m6, m2

    mova      m2, %1
    mova      m5, %2
    SUMSUB_BA d, 5, 2
    SUMSUB_BA d, 6, 5
    SUMSUB_BA d, 4, 2
    SUMSUB_BA d, 7, 6
    SUMSUB_BA d, 0, 4
    SUMSUB_BA d, 3, 2
    SUMSUB_BA d, 1, 5
    SWAP      7, 6, 4, 5, 2, 3, 1, 0 ; 70315246 -> 01234567
%endmacro

%macro IDCT8_1D_FULL 1
    mova         m7, [%1+112*2]
    mova         m6, [%1+ 96*2]
    mova         m5, [%1+ 80*2]
    mova         m3, [%1+ 48*2]
    mova         m2, [%1+ 32*2]
    mova         m1, [%1+ 16*2]
    IDCT8_1D   [%1], [%1+ 64*2]
%endmacro

; %1=int16_t *block, %2=int16_t *dstblock
%macro IDCT8_ADD_SSE_START 2
    IDCT8_1D_FULL %1
%if ARCH_X86_64
    TRANSPOSE4x4D  0,1,2,3,8
    mova    [%2    ], m0
    TRANSPOSE4x4D  4,5,6,7,8
    mova    [%2+8*2], m4
%else
    mova         [%1], m7
    TRANSPOSE4x4D   0,1,2,3,7
    mova           m7, [%1]
    mova    [%2     ], m0
    mova    [%2+16*2], m1
    mova    [%2+32*2], m2
    mova    [%2+48*2], m3
    TRANSPOSE4x4D   4,5,6,7,3
    mova    [%2+ 8*2], m4
    mova    [%2+24*2], m5
    mova    [%2+40*2], m6
    mova    [%2+56*2], m7
%endif
%endmacro

; %1=uint8_t *dst, %2=int16_t *block, %3=int stride
%macro IDCT8_ADD_SSE_END 3
    IDCT8_1D_FULL %2
    mova  [%2     ], m6
    mova  [%2+16*2], m7

    pxor         m7, m7
    STORE_DIFFx2 m0, m1, m6, m7, %1, %3
    lea          %1, [%1+%3*2]
    STORE_DIFFx2 m2, m3, m6, m7, %1, %3
    mova         m0, [%2     ]
    mova         m1, [%2+16*2]
    lea          %1, [%1+%3*2]
    STORE_DIFFx2 m4, m5, m6, m7, %1, %3
    lea          %1, [%1+%3*2]
    STORE_DIFFx2 m0, m1, m6, m7, %1, %3
%endmacro

%macro IDCT8_ADD 0
cglobal h264_idct8_add_10, 3,4,16
%if UNIX64 == 0
    %assign pad 16-gprsize-(stack_offset&15)
    sub  rsp, pad
    call h264_idct8_add1_10 %+ SUFFIX
    add  rsp, pad
    RET
%endif

ALIGN 16
; TODO: does not need to use stack
h264_idct8_add1_10 %+ SUFFIX:
%assign pad 256+16-gprsize
    sub          rsp, pad
    add   dword [r1], 32

%if ARCH_X86_64
    IDCT8_ADD_SSE_START r1, rsp
    SWAP 1,  9
    SWAP 2, 10
    SWAP 3, 11
    SWAP 5, 13
    SWAP 6, 14
    SWAP 7, 15
    IDCT8_ADD_SSE_START r1+16, rsp+128
    PERMUTE 1,9, 2,10, 3,11, 5,1, 6,2, 7,3, 9,13, 10,14, 11,15, 13,5, 14,6, 15,7
    IDCT8_1D [rsp], [rsp+128]
    SWAP 0,  8
    SWAP 1,  9
    SWAP 2, 10
    SWAP 3, 11
    SWAP 4, 12
    SWAP 5, 13
    SWAP 6, 14
    SWAP 7, 15
    IDCT8_1D [rsp+16], [rsp+144]
    psrad         m8, 6
    psrad         m0, 6
    packssdw      m8, m0
    paddsw        m8, [r0]
    pxor          m0, m0
    mova    [r1+  0], m0
    mova    [r1+ 16], m0
    mova    [r1+ 32], m0
    mova    [r1+ 48], m0
    mova    [r1+ 64], m0
    mova    [r1+ 80], m0
    mova    [r1+ 96], m0
    mova    [r1+112], m0
    mova    [r1+128], m0
    mova    [r1+144], m0
    mova    [r1+160], m0
    mova    [r1+176], m0
    mova    [r1+192], m0
    mova    [r1+208], m0
    mova    [r1+224], m0
    mova    [r1+240], m0
    CLIPW         m8, m0, [pw_pixel_max]
    mova        [r0], m8
    mova          m8, [pw_pixel_max]
    STORE_DIFF16  m9, m1, m0, m8, r0+r2
    lea           r0, [r0+r2*2]
    STORE_DIFF16 m10, m2, m0, m8, r0
    STORE_DIFF16 m11, m3, m0, m8, r0+r2
    lea           r0, [r0+r2*2]
    STORE_DIFF16 m12, m4, m0, m8, r0
    STORE_DIFF16 m13, m5, m0, m8, r0+r2
    lea           r0, [r0+r2*2]
    STORE_DIFF16 m14, m6, m0, m8, r0
    STORE_DIFF16 m15, m7, m0, m8, r0+r2
%else
    IDCT8_ADD_SSE_START r1,    rsp
    IDCT8_ADD_SSE_START r1+16, rsp+128
    lea           r3, [r0+8]
    IDCT8_ADD_SSE_END r0, rsp,    r2
    IDCT8_ADD_SSE_END r3, rsp+16, r2
    mova    [r1+  0], m7
    mova    [r1+ 16], m7
    mova    [r1+ 32], m7
    mova    [r1+ 48], m7
    mova    [r1+ 64], m7
    mova    [r1+ 80], m7
    mova    [r1+ 96], m7
    mova    [r1+112], m7
    mova    [r1+128], m7
    mova    [r1+144], m7
    mova    [r1+160], m7
    mova    [r1+176], m7
    mova    [r1+192], m7
    mova    [r1+208], m7
    mova    [r1+224], m7
    mova    [r1+240], m7
%endif ; ARCH_X86_64

    add          rsp, pad
    ret
%endmacro

INIT_XMM sse2
IDCT8_ADD
%if HAVE_AVX_EXTERNAL
INIT_XMM avx
IDCT8_ADD
%endif

;-----------------------------------------------------------------------------
; void ff_h264_idct8_add4_10(pixel **dst, const int *block_offset,
;                            int16_t *block, int stride,
;                            const uint8_t nnzc[6*8])
;-----------------------------------------------------------------------------
;;;;;;; NO FATE SAMPLES TRIGGER THIS
%macro IDCT8_ADD4_OP 2
    cmp       byte [r4+%2], 0
    jz .skipblock%1
    mov      r0d, [r6+%1*4]
    add       r0, r5
    call h264_idct8_add1_10 %+ SUFFIX
.skipblock%1:
%if %1<12
    add       r1, 256
%endif
%endmacro

%macro IDCT8_ADD4 0
cglobal h264_idct8_add4_10, 0,7,16
    %assign pad 16-gprsize-(stack_offset&15)
    SUB      rsp, pad
    mov       r5, r0mp
    mov       r6, r1mp
    mov       r1, r2mp
    mov      r2d, r3m
    movifnidn r4, r4mp
    IDCT8_ADD4_OP  0, 4+1*8
    IDCT8_ADD4_OP  4, 6+1*8
    IDCT8_ADD4_OP  8, 4+3*8
    IDCT8_ADD4_OP 12, 6+3*8
    ADD       rsp, pad
    RET
%endmacro ; IDCT8_ADD4

INIT_XMM sse2
IDCT8_ADD4
%if HAVE_AVX_EXTERNAL
INIT_XMM avx
IDCT8_ADD4
%endif
Commit	Line	Data
	1	;*****************************************************************************
	2	;* MMX/SSE2/AVX-optimized 10-bit H.264 iDCT code
	3	;*****************************************************************************
	4	;* Copyright (C) 2005-2011 x264 project
	5	;*
	6	;* Authors: Daniel Kang <daniel.d.kang@gmail.com>
	7	;*
	8	;* This file is part of FFmpeg.
	9	;*
	10	;* FFmpeg is free software; you can redistribute it and/or
	11	;* modify it under the terms of the GNU Lesser General Public
	12	;* License as published by the Free Software Foundation; either
	13	;* version 2.1 of the License, or (at your option) any later version.
	14	;*
	15	;* FFmpeg is distributed in the hope that it will be useful,
	16	;* but WITHOUT ANY WARRANTY; without even the implied warranty of
	17	;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GNU
	18	;* Lesser General Public License for more details.
	19	;*
	20	;* You should have received a copy of the GNU Lesser General Public
	21	;* License along with FFmpeg; if not, write to the Free Software
	22	;* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
	23	;******************************************************************************
	24
	25	%include "libavutil/x86/x86util.asm"
	26
	27	SECTION_RODATA
	28
	29	pw_pixel_max: times 8 dw ((1 << 10)-1)
	30	pd_32: times 4 dd 32
	31
	32	SECTION .text
	33
	34	;-----------------------------------------------------------------------------
	35	; void ff_h264_idct_add_10(pixel dst, int16_t block, int stride)
	36	;-----------------------------------------------------------------------------
	37	%macro STORE_DIFFx2 6
	38	psrad %1, 6
	39	psrad %2, 6
	40	packssdw %1, %2
	41	movq %3, [%5]
	42	movhps %3, [%5+%6]
	43	paddsw %1, %3
	44	CLIPW %1, %4, [pw_pixel_max]
	45	movq [%5], %1
	46	movhps [%5+%6], %1
	47	%endmacro
	48
	49	%macro STORE_DIFF16 5
	50	psrad %1, 6
	51	psrad %2, 6
	52	packssdw %1, %2
	53	paddsw %1, [%5]
	54	CLIPW %1, %3, %4
	55	mova [%5], %1
	56	%endmacro
	57
	58	;dst, in, stride
	59	%macro IDCT4_ADD_10 3
	60	mova m0, [%2+ 0]
	61	mova m1, [%2+16]
	62	mova m2, [%2+32]
	63	mova m3, [%2+48]
	64	IDCT4_1D d,0,1,2,3,4,5
	65	TRANSPOSE4x4D 0,1,2,3,4
	66	paddd m0, [pd_32]
	67	IDCT4_1D d,0,1,2,3,4,5
	68	pxor m5, m5
	69	mova [%2+ 0], m5
	70	mova [%2+16], m5
	71	mova [%2+32], m5
	72	mova [%2+48], m5
	73	STORE_DIFFx2 m0, m1, m4, m5, %1, %3
	74	lea %1, [%1+%3*2]
	75	STORE_DIFFx2 m2, m3, m4, m5, %1, %3
	76	%endmacro
	77
	78	%macro IDCT_ADD_10 0
	79	cglobal h264_idct_add_10, 3,3
	80	IDCT4_ADD_10 r0, r1, r2
	81	RET
	82	%endmacro
	83
	84	INIT_XMM sse2
	85	IDCT_ADD_10
	86	%if HAVE_AVX_EXTERNAL
	87	INIT_XMM avx
	88	IDCT_ADD_10
	89	%endif
	90
	91	;-----------------------------------------------------------------------------
	92	; void ff_h264_idct_add16_10(pixel dst, const int block_offset,
	93	; int16_t *block, int stride,
	94	; const uint8_t nnzc[6*8])
	95	;-----------------------------------------------------------------------------
	96	;;;;;;; NO FATE SAMPLES TRIGGER THIS
	97	%macro ADD4x4IDCT 0
	98	add4x4_idct %+ SUFFIX:
	99	add r5, r0
	100	mova m0, [r2+ 0]
	101	mova m1, [r2+16]
	102	mova m2, [r2+32]
	103	mova m3, [r2+48]
	104	IDCT4_1D d,0,1,2,3,4,5
	105	TRANSPOSE4x4D 0,1,2,3,4
	106	paddd m0, [pd_32]
	107	IDCT4_1D d,0,1,2,3,4,5
	108	pxor m5, m5
	109	mova [r2+ 0], m5
	110	mova [r2+16], m5
	111	mova [r2+32], m5
	112	mova [r2+48], m5
	113	STORE_DIFFx2 m0, m1, m4, m5, r5, r3
	114	lea r5, [r5+r3*2]
	115	STORE_DIFFx2 m2, m3, m4, m5, r5, r3
	116	ret
	117	%endmacro
	118
	119	INIT_XMM sse2
	120	ALIGN 16
	121	ADD4x4IDCT
	122	%if HAVE_AVX_EXTERNAL
	123	INIT_XMM avx
	124	ALIGN 16
	125	ADD4x4IDCT
	126	%endif
	127
	128	%macro ADD16_OP 2
	129	cmp byte [r4+%2], 0
	130	jz .skipblock%1
	131	mov r5d, [r1+%1*4]
	132	call add4x4_idct %+ SUFFIX
	133	.skipblock%1:
	134	%if %1<15
	135	add r2, 64
	136	%endif
	137	%endmacro
	138
	139	%macro IDCT_ADD16_10 0
	140	cglobal h264_idct_add16_10, 5,6
	141	ADD16_OP 0, 4+1*8
	142	ADD16_OP 1, 5+1*8
	143	ADD16_OP 2, 4+2*8
	144	ADD16_OP 3, 5+2*8
	145	ADD16_OP 4, 6+1*8
	146	ADD16_OP 5, 7+1*8
	147	ADD16_OP 6, 6+2*8
	148	ADD16_OP 7, 7+2*8
	149	ADD16_OP 8, 4+3*8
	150	ADD16_OP 9, 5+3*8
	151	ADD16_OP 10, 4+4*8
	152	ADD16_OP 11, 5+4*8
	153	ADD16_OP 12, 6+3*8
	154	ADD16_OP 13, 7+3*8
	155	ADD16_OP 14, 6+4*8
	156	ADD16_OP 15, 7+4*8
	157	REP_RET
	158	%endmacro
	159
	160	INIT_XMM sse2
	161	IDCT_ADD16_10
	162	%if HAVE_AVX_EXTERNAL
	163	INIT_XMM avx
	164	IDCT_ADD16_10
	165	%endif
	166
	167	;-----------------------------------------------------------------------------
	168	; void ff_h264_idct_dc_add_10(pixel dst, int16_t block, int stride)
	169	;-----------------------------------------------------------------------------
	170	%macro IDCT_DC_ADD_OP_10 3
	171	pxor m5, m5
	172	%if avx_enabled
	173	paddw m1, m0, [%1+0 ]
	174	paddw m2, m0, [%1+%2 ]
	175	paddw m3, m0, [%1+%2*2]
	176	paddw m4, m0, [%1+%3 ]
	177	%else
	178	mova m1, [%1+0 ]
	179	mova m2, [%1+%2 ]
	180	mova m3, [%1+%2*2]
	181	mova m4, [%1+%3 ]
	182	paddw m1, m0
	183	paddw m2, m0
	184	paddw m3, m0
	185	paddw m4, m0
	186	%endif
	187	CLIPW m1, m5, m6
	188	CLIPW m2, m5, m6
	189	CLIPW m3, m5, m6
	190	CLIPW m4, m5, m6
	191	mova [%1+0 ], m1
	192	mova [%1+%2 ], m2
	193	mova [%1+%2*2], m3
	194	mova [%1+%3 ], m4
	195	%endmacro
	196
	197	INIT_MMX mmxext
	198	cglobal h264_idct_dc_add_10,3,3
	199	movd m0, [r1]
	200	mov dword [r1], 0
	201	paddd m0, [pd_32]
	202	psrad m0, 6
	203	lea r1, [r2*3]
	204	pshufw m0, m0, 0
	205	mova m6, [pw_pixel_max]
	206	IDCT_DC_ADD_OP_10 r0, r2, r1
	207	RET
	208
	209	;-----------------------------------------------------------------------------
	210	; void ff_h264_idct8_dc_add_10(pixel dst, int16_t block, int stride)
	211	;-----------------------------------------------------------------------------
	212	%macro IDCT8_DC_ADD 0
	213	cglobal h264_idct8_dc_add_10,3,4,7
	214	movd m0, [r1]
	215	mov dword[r1], 0
	216	paddd m0, [pd_32]
	217	psrad m0, 6
	218	lea r1, [r2*3]
	219	SPLATW m0, m0, 0
	220	mova m6, [pw_pixel_max]
	221	IDCT_DC_ADD_OP_10 r0, r2, r1
	222	lea r0, [r0+r2*4]
	223	IDCT_DC_ADD_OP_10 r0, r2, r1
	224	RET
	225	%endmacro
	226
	227	INIT_XMM sse2
	228	IDCT8_DC_ADD
	229	%if HAVE_AVX_EXTERNAL
	230	INIT_XMM avx
	231	IDCT8_DC_ADD
	232	%endif
	233
	234	;-----------------------------------------------------------------------------
	235	; void ff_h264_idct_add16intra_10(pixel dst, const int block_offset,
	236	; int16_t *block, int stride,
	237	; const uint8_t nnzc[6*8])
	238	;-----------------------------------------------------------------------------
	239	%macro AC 1
	240	.ac%1:
	241	mov r5d, [r1+(%1+0)*4]
	242	call add4x4_idct %+ SUFFIX
	243	mov r5d, [r1+(%1+1)*4]
	244	add r2, 64
	245	call add4x4_idct %+ SUFFIX
	246	add r2, 64
	247	jmp .skipadd%1
	248	%endmacro
	249
	250	%assign last_block 16
	251	%macro ADD16_OP_INTRA 2
	252	cmp word [r4+%2], 0
	253	jnz .ac%1
	254	mov r5d, [r2+ 0]
	255	or r5d, [r2+64]
	256	jz .skipblock%1
	257	mov r5d, [r1+(%1+0)*4]
	258	call idct_dc_add %+ SUFFIX
	259	.skipblock%1:
	260	%if %1<last_block-2
	261	add r2, 128
	262	%endif
	263	.skipadd%1:
	264	%endmacro
	265
	266	%macro IDCT_ADD16INTRA_10 0
	267	idct_dc_add %+ SUFFIX:
	268	add r5, r0
	269	movq m0, [r2+ 0]
	270	movhps m0, [r2+64]
	271	mov dword [r2+ 0], 0
	272	mov dword [r2+64], 0
	273	paddd m0, [pd_32]
	274	psrad m0, 6
	275	pshufhw m0, m0, 0
	276	pshuflw m0, m0, 0
	277	lea r6, [r3*3]
	278	mova m6, [pw_pixel_max]
	279	IDCT_DC_ADD_OP_10 r5, r3, r6
	280	ret
	281
	282	cglobal h264_idct_add16intra_10,5,7,8
	283	ADD16_OP_INTRA 0, 4+1*8
	284	ADD16_OP_INTRA 2, 4+2*8
	285	ADD16_OP_INTRA 4, 6+1*8
	286	ADD16_OP_INTRA 6, 6+2*8
	287	ADD16_OP_INTRA 8, 4+3*8
	288	ADD16_OP_INTRA 10, 4+4*8
	289	ADD16_OP_INTRA 12, 6+3*8
	290	ADD16_OP_INTRA 14, 6+4*8
	291	REP_RET
	292	AC 8
	293	AC 10
	294	AC 12
	295	AC 14
	296	AC 0
	297	AC 2
	298	AC 4
	299	AC 6
	300	%endmacro
	301
	302	INIT_XMM sse2
	303	IDCT_ADD16INTRA_10
	304	%if HAVE_AVX_EXTERNAL
	305	INIT_XMM avx
	306	IDCT_ADD16INTRA_10
	307	%endif
	308
	309	%assign last_block 36
	310	;-----------------------------------------------------------------------------
	311	; void ff_h264_idct_add8_10(pixel *dst, const int block_offset,
	312	; int16_t *block, int stride,
	313	; const uint8_t nnzc[6*8])
	314	;-----------------------------------------------------------------------------
	315	%macro IDCT_ADD8 0
	316	cglobal h264_idct_add8_10,5,8,7
	317	%if ARCH_X86_64
	318	mov r7, r0
	319	%endif
	320	add r2, 1024
	321	mov r0, [r0]
	322	ADD16_OP_INTRA 16, 4+ 6*8
	323	ADD16_OP_INTRA 18, 4+ 7*8
	324	add r2, 1024-128*2
	325	%if ARCH_X86_64
	326	mov r0, [r7+gprsize]
	327	%else
	328	mov r0, r0m
	329	mov r0, [r0+gprsize]
	330	%endif
	331	ADD16_OP_INTRA 32, 4+11*8
	332	ADD16_OP_INTRA 34, 4+12*8
	333	REP_RET
	334	AC 16
	335	AC 18
	336	AC 32
	337	AC 34
	338
	339	%endmacro ; IDCT_ADD8
	340
	341	INIT_XMM sse2
	342	IDCT_ADD8
	343	%if HAVE_AVX_EXTERNAL
	344	INIT_XMM avx
	345	IDCT_ADD8
	346	%endif
	347
	348	;-----------------------------------------------------------------------------
	349	; void ff_h264_idct8_add_10(pixel dst, int16_t block, int stride)
	350	;-----------------------------------------------------------------------------
	351	%macro IDCT8_1D 2
	352	SWAP 0, 1
	353	psrad m4, m5, 1
	354	psrad m1, m0, 1
	355	paddd m4, m5
	356	paddd m1, m0
	357	paddd m4, m7
	358	paddd m1, m5
	359	psubd m4, m0
	360	paddd m1, m3
	361
	362	psubd m0, m3
	363	psubd m5, m3
	364	paddd m0, m7
	365	psubd m5, m7
	366	psrad m3, 1
	367	psrad m7, 1
	368	psubd m0, m3
	369	psubd m5, m7
	370
	371	SWAP 1, 7
	372	psrad m1, m7, 2
	373	psrad m3, m4, 2
	374	paddd m3, m0
	375	psrad m0, 2
	376	paddd m1, m5
	377	psrad m5, 2
	378	psubd m0, m4
	379	psubd m7, m5
	380
	381	SWAP 5, 6
	382	psrad m4, m2, 1
	383	psrad m6, m5, 1
	384	psubd m4, m5
	385	paddd m6, m2
	386
	387	mova m2, %1
	388	mova m5, %2
	389	SUMSUB_BA d, 5, 2
	390	SUMSUB_BA d, 6, 5
	391	SUMSUB_BA d, 4, 2
	392	SUMSUB_BA d, 7, 6
	393	SUMSUB_BA d, 0, 4
	394	SUMSUB_BA d, 3, 2
	395	SUMSUB_BA d, 1, 5
	396	SWAP 7, 6, 4, 5, 2, 3, 1, 0 ; 70315246 -> 01234567
	397	%endmacro
	398
	399	%macro IDCT8_1D_FULL 1
	400	mova m7, [%1+112*2]
	401	mova m6, [%1+ 96*2]
	402	mova m5, [%1+ 80*2]
	403	mova m3, [%1+ 48*2]
	404	mova m2, [%1+ 32*2]
	405	mova m1, [%1+ 16*2]
	406	IDCT8_1D [%1], [%1+ 64*2]
	407	%endmacro
	408
	409	; %1=int16_t block, %2=int16_t dstblock
	410	%macro IDCT8_ADD_SSE_START 2
	411	IDCT8_1D_FULL %1
	412	%if ARCH_X86_64
	413	TRANSPOSE4x4D 0,1,2,3,8
	414	mova [%2 ], m0
	415	TRANSPOSE4x4D 4,5,6,7,8
	416	mova [%2+8*2], m4
	417	%else
	418	mova [%1], m7
	419	TRANSPOSE4x4D 0,1,2,3,7
	420	mova m7, [%1]
	421	mova [%2 ], m0
	422	mova [%2+16*2], m1
	423	mova [%2+32*2], m2
	424	mova [%2+48*2], m3
	425	TRANSPOSE4x4D 4,5,6,7,3
	426	mova [%2+ 8*2], m4
	427	mova [%2+24*2], m5
	428	mova [%2+40*2], m6
	429	mova [%2+56*2], m7
	430	%endif
	431	%endmacro
	432
	433	; %1=uint8_t dst, %2=int16_t block, %3=int stride
	434	%macro IDCT8_ADD_SSE_END 3
	435	IDCT8_1D_FULL %2
	436	mova [%2 ], m6
	437	mova [%2+16*2], m7
	438
	439	pxor m7, m7
	440	STORE_DIFFx2 m0, m1, m6, m7, %1, %3
	441	lea %1, [%1+%3*2]
	442	STORE_DIFFx2 m2, m3, m6, m7, %1, %3
	443	mova m0, [%2 ]
	444	mova m1, [%2+16*2]
	445	lea %1, [%1+%3*2]
	446	STORE_DIFFx2 m4, m5, m6, m7, %1, %3
	447	lea %1, [%1+%3*2]
	448	STORE_DIFFx2 m0, m1, m6, m7, %1, %3
	449	%endmacro
	450
	451	%macro IDCT8_ADD 0
	452	cglobal h264_idct8_add_10, 3,4,16
	453	%if UNIX64 == 0
	454	%assign pad 16-gprsize-(stack_offset&15)
	455	sub rsp, pad
	456	call h264_idct8_add1_10 %+ SUFFIX
	457	add rsp, pad
	458	RET
	459	%endif
	460
	461	ALIGN 16
	462	; TODO: does not need to use stack
	463	h264_idct8_add1_10 %+ SUFFIX:
	464	%assign pad 256+16-gprsize
	465	sub rsp, pad
	466	add dword [r1], 32
	467
	468	%if ARCH_X86_64
	469	IDCT8_ADD_SSE_START r1, rsp
	470	SWAP 1, 9
	471	SWAP 2, 10
	472	SWAP 3, 11
	473	SWAP 5, 13
	474	SWAP 6, 14
	475	SWAP 7, 15
	476	IDCT8_ADD_SSE_START r1+16, rsp+128
	477	PERMUTE 1,9, 2,10, 3,11, 5,1, 6,2, 7,3, 9,13, 10,14, 11,15, 13,5, 14,6, 15,7
	478	IDCT8_1D [rsp], [rsp+128]
	479	SWAP 0, 8
	480	SWAP 1, 9
	481	SWAP 2, 10
	482	SWAP 3, 11
	483	SWAP 4, 12
	484	SWAP 5, 13
	485	SWAP 6, 14
	486	SWAP 7, 15
	487	IDCT8_1D [rsp+16], [rsp+144]
	488	psrad m8, 6
	489	psrad m0, 6
	490	packssdw m8, m0
	491	paddsw m8, [r0]
	492	pxor m0, m0
	493	mova [r1+ 0], m0
	494	mova [r1+ 16], m0
	495	mova [r1+ 32], m0
	496	mova [r1+ 48], m0
	497	mova [r1+ 64], m0
	498	mova [r1+ 80], m0
	499	mova [r1+ 96], m0
	500	mova [r1+112], m0
	501	mova [r1+128], m0
	502	mova [r1+144], m0
	503	mova [r1+160], m0
	504	mova [r1+176], m0
	505	mova [r1+192], m0
	506	mova [r1+208], m0
	507	mova [r1+224], m0
	508	mova [r1+240], m0
	509	CLIPW m8, m0, [pw_pixel_max]
	510	mova [r0], m8
	511	mova m8, [pw_pixel_max]
	512	STORE_DIFF16 m9, m1, m0, m8, r0+r2
	513	lea r0, [r0+r2*2]
	514	STORE_DIFF16 m10, m2, m0, m8, r0
	515	STORE_DIFF16 m11, m3, m0, m8, r0+r2
	516	lea r0, [r0+r2*2]
	517	STORE_DIFF16 m12, m4, m0, m8, r0
	518	STORE_DIFF16 m13, m5, m0, m8, r0+r2
	519	lea r0, [r0+r2*2]
	520	STORE_DIFF16 m14, m6, m0, m8, r0
	521	STORE_DIFF16 m15, m7, m0, m8, r0+r2
	522	%else
	523	IDCT8_ADD_SSE_START r1, rsp
	524	IDCT8_ADD_SSE_START r1+16, rsp+128
	525	lea r3, [r0+8]
	526	IDCT8_ADD_SSE_END r0, rsp, r2
	527	IDCT8_ADD_SSE_END r3, rsp+16, r2
	528	mova [r1+ 0], m7
	529	mova [r1+ 16], m7
	530	mova [r1+ 32], m7
	531	mova [r1+ 48], m7
	532	mova [r1+ 64], m7
	533	mova [r1+ 80], m7
	534	mova [r1+ 96], m7
	535	mova [r1+112], m7
	536	mova [r1+128], m7
	537	mova [r1+144], m7
	538	mova [r1+160], m7
	539	mova [r1+176], m7
	540	mova [r1+192], m7
	541	mova [r1+208], m7
	542	mova [r1+224], m7
	543	mova [r1+240], m7
	544	%endif ; ARCH_X86_64
	545
	546	add rsp, pad
	547	ret
	548	%endmacro
	549
	550	INIT_XMM sse2
	551	IDCT8_ADD
	552	%if HAVE_AVX_EXTERNAL
	553	INIT_XMM avx
	554	IDCT8_ADD
	555	%endif
	556
	557	;-----------------------------------------------------------------------------
	558	; void ff_h264_idct8_add4_10(pixel *dst, const int block_offset,
	559	; int16_t *block, int stride,
	560	; const uint8_t nnzc[6*8])
	561	;-----------------------------------------------------------------------------
	562	;;;;;;; NO FATE SAMPLES TRIGGER THIS
	563	%macro IDCT8_ADD4_OP 2
	564	cmp byte [r4+%2], 0
	565	jz .skipblock%1
	566	mov r0d, [r6+%1*4]
	567	add r0, r5
	568	call h264_idct8_add1_10 %+ SUFFIX
	569	.skipblock%1:
	570	%if %1<12
	571	add r1, 256
	572	%endif
	573	%endmacro
	574
	575	%macro IDCT8_ADD4 0
	576	cglobal h264_idct8_add4_10, 0,7,16
	577	%assign pad 16-gprsize-(stack_offset&15)
	578	SUB rsp, pad
	579	mov r5, r0mp
	580	mov r6, r1mp
	581	mov r1, r2mp
	582	mov r2d, r3m
	583	movifnidn r4, r4mp
	584	IDCT8_ADD4_OP 0, 4+1*8
	585	IDCT8_ADD4_OP 4, 6+1*8
	586	IDCT8_ADD4_OP 8, 4+3*8
	587	IDCT8_ADD4_OP 12, 6+3*8
	588	ADD rsp, pad
	589	RET
	590	%endmacro ; IDCT8_ADD4
	591
	592	INIT_XMM sse2
	593	IDCT8_ADD4
	594	%if HAVE_AVX_EXTERNAL
	595	INIT_XMM avx
	596	IDCT8_ADD4
	597	%endif