[deb_ffmpeg.git] / ffmpeg / libavcodec / x86 / rv34dsp.asm

;******************************************************************************
;* MMX/SSE2-optimized functions for the RV30 and RV40 decoders
;* Copyright (C) 2012 Christophe Gisquet <christophe.gisquet@gmail.com>
;*
;* This file is part of FFmpeg.
;*
;* FFmpeg is free software; you can redistribute it and/or
;* modify it under the terms of the GNU Lesser General Public
;* License as published by the Free Software Foundation; either
;* version 2.1 of the License, or (at your option) any later version.
;*
;* FFmpeg is distributed in the hope that it will be useful,
;* but WITHOUT ANY WARRANTY; without even the implied warranty of
;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
;* Lesser General Public License for more details.
;*
;* You should have received a copy of the GNU Lesser General Public
;* License along with FFmpeg; if not, write to the Free Software
;* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
;******************************************************************************

%include "libavutil/x86/x86util.asm"

SECTION_RODATA
pw_row_coeffs:  times 4 dw 13
                times 4 dw 17
                times 4 dw  7
pd_512: times 2 dd 0x200
pw_col_coeffs:  dw 13,  13,  13, -13
                dw 17,   7,   7, -17
                dw 13, -13,  13,  13
                dw -7,  17, -17,  -7

SECTION .text

%macro IDCT_DC_NOROUND 1
    imul   %1, 13*13*3
    sar    %1, 11
%endmacro

%macro IDCT_DC_ROUND 1
    imul   %1, 13*13
    add    %1, 0x200
    sar    %1, 10
%endmacro

%macro rv34_idct 1
cglobal rv34_idct_%1, 1, 2, 0
    movsx   r1, word [r0]
    IDCT_DC r1
    movd    m0, r1d
    pshufw  m0, m0, 0
    movq    [r0+ 0], m0
    movq    [r0+ 8], m0
    movq    [r0+16], m0
    movq    [r0+24], m0
    REP_RET
%endmacro

INIT_MMX mmxext
%define IDCT_DC IDCT_DC_ROUND
rv34_idct dc
%define IDCT_DC IDCT_DC_NOROUND
rv34_idct dc_noround

; ff_rv34_idct_dc_add_mmx(uint8_t *dst, int stride, int dc);
INIT_MMX mmx
cglobal rv34_idct_dc_add, 3, 3
    ; calculate DC
    IDCT_DC_ROUND r2
    pxor       m1, m1
    movd       m0, r2d
    psubw      m1, m0
    packuswb   m0, m0
    packuswb   m1, m1
    punpcklbw  m0, m0
    punpcklbw  m1, m1
    punpcklwd  m0, m0
    punpcklwd  m1, m1

    ; add DC
    lea        r2, [r0+r1*2]
    movh       m2, [r0]
    movh       m3, [r0+r1]
    movh       m4, [r2]
    movh       m5, [r2+r1]
    paddusb    m2, m0
    paddusb    m3, m0
    paddusb    m4, m0
    paddusb    m5, m0
    psubusb    m2, m1
    psubusb    m3, m1
    psubusb    m4, m1
    psubusb    m5, m1
    movh       [r0], m2
    movh       [r0+r1], m3
    movh       [r2], m4
    movh       [r2+r1], m5
    RET

; Load coeffs and perform row transform
; Output: coeffs in mm[0467], rounder in mm5
%macro ROW_TRANSFORM  1
    pxor        mm7, mm7
    mova        mm0, [%1+ 0*8]
    mova        mm1, [%1+ 1*8]
    mova        mm2, [%1+ 2*8]
    mova        mm3, [%1+ 3*8]
    mova  [%1+ 0*8], mm7
    mova  [%1+ 1*8], mm7
    mova  [%1+ 2*8], mm7
    mova  [%1+ 3*8], mm7
    mova        mm4, mm0
    mova        mm6, [pw_row_coeffs+ 0]
    paddsw      mm0, mm2                ; b0 + b2
    psubsw      mm4, mm2                ; b0 - b2
    pmullw      mm0, mm6                ; *13 = z0
    pmullw      mm4, mm6                ; *13 = z1
    mova        mm5, mm1
    pmullw      mm1, [pw_row_coeffs+ 8] ; b1*17
    pmullw      mm5, [pw_row_coeffs+16] ; b1* 7
    mova        mm7, mm3
    pmullw      mm3, [pw_row_coeffs+ 8] ; b3*17
    pmullw      mm7, [pw_row_coeffs+16] ; b3* 7
    paddsw      mm1, mm7                ; z3 = b1*17 + b3* 7
    psubsw      mm5, mm3                ; z2 = b1* 7 - b3*17
    mova        mm7, mm0
    mova        mm6, mm4
    paddsw      mm0, mm1                ; z0 + z3
    psubsw      mm7, mm1                ; z0 - z3
    paddsw      mm4, mm5                ; z1 + z2
    psubsw      mm6, mm5                ; z1 - z2
    mova        mm5, [pd_512]           ; 0x200
%endmacro

; ff_rv34_idct_add_mmxext(uint8_t *dst, ptrdiff_t stride, int16_t *block);
%macro COL_TRANSFORM  4
    pshufw      mm3, %2, 0xDD        ; col. 1,3,1,3
    pshufw       %2, %2, 0x88        ; col. 0,2,0,2
    pmaddwd      %2, %3              ; 13*c0+13*c2 | 13*c0-13*c2 = z0 | z1
    pmaddwd     mm3, %4              ; 17*c1+ 7*c3 |  7*c1-17*c3 = z3 | z2
    paddd        %2, mm5
    pshufw      mm1,  %2, 01001110b  ;    z1 | z0
    pshufw      mm2, mm3, 01001110b  ;    z2 | z3
    paddd        %2, mm3             ; z0+z3 | z1+z2
    psubd       mm1, mm2             ; z1-z2 | z0-z3
    movd        mm3, %1
    psrad        %2, 10
    pxor        mm2, mm2
    psrad       mm1, 10
    punpcklbw   mm3, mm2
    packssdw     %2, mm1
    paddw        %2, mm3
    packuswb     %2, %2
    movd         %1, %2
%endmacro
INIT_MMX mmxext
cglobal rv34_idct_add, 3,3,0, d, s, b
    ROW_TRANSFORM       bq
    COL_TRANSFORM     [dq], mm0, [pw_col_coeffs+ 0], [pw_col_coeffs+ 8]
    mova               mm0, [pw_col_coeffs+ 0]
    COL_TRANSFORM  [dq+sq], mm4, mm0, [pw_col_coeffs+ 8]
    mova               mm4, [pw_col_coeffs+ 8]
    lea                 dq, [dq + 2*sq]
    COL_TRANSFORM     [dq], mm6, mm0, mm4
    COL_TRANSFORM  [dq+sq], mm7, mm0, mm4
    ret

; ff_rv34_idct_dc_add_sse4(uint8_t *dst, int stride, int dc);
INIT_XMM sse4
cglobal rv34_idct_dc_add, 3, 3, 6
    ; load data
    IDCT_DC_ROUND r2
    pxor       m1, m1

    ; calculate DC
    movd       m0, r2d
    lea        r2, [r0+r1*2]
    movd       m2, [r0]
    movd       m3, [r0+r1]
    pshuflw    m0, m0, 0
    movd       m4, [r2]
    movd       m5, [r2+r1]
    punpcklqdq m0, m0
    punpckldq  m2, m3
    punpckldq  m4, m5
    punpcklbw  m2, m1
    punpcklbw  m4, m1
    paddw      m2, m0
    paddw      m4, m0
    packuswb   m2, m4
    movd      [r0], m2
    pextrd [r0+r1], m2, 1
    pextrd    [r2], m2, 2
    pextrd [r2+r1], m2, 3
    RET
Commit	Line	Data
	1	;******************************************************************************
	2	;* MMX/SSE2-optimized functions for the RV30 and RV40 decoders
	3	;* Copyright (C) 2012 Christophe Gisquet <christophe.gisquet@gmail.com>
	4	;*
	5	;* This file is part of FFmpeg.
	6	;*
	7	;* FFmpeg is free software; you can redistribute it and/or
	8	;* modify it under the terms of the GNU Lesser General Public
	9	;* License as published by the Free Software Foundation; either
	10	;* version 2.1 of the License, or (at your option) any later version.
	11	;*
	12	;* FFmpeg is distributed in the hope that it will be useful,
	13	;* but WITHOUT ANY WARRANTY; without even the implied warranty of
	14	;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GNU
	15	;* Lesser General Public License for more details.
	16	;*
	17	;* You should have received a copy of the GNU Lesser General Public
	18	;* License along with FFmpeg; if not, write to the Free Software
	19	;* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
	20	;******************************************************************************
	21
	22	%include "libavutil/x86/x86util.asm"
	23
	24	SECTION_RODATA
	25	pw_row_coeffs: times 4 dw 13
	26	times 4 dw 17
	27	times 4 dw 7
	28	pd_512: times 2 dd 0x200
	29	pw_col_coeffs: dw 13, 13, 13, -13
	30	dw 17, 7, 7, -17
	31	dw 13, -13, 13, 13
	32	dw -7, 17, -17, -7
	33
	34	SECTION .text
	35
	36	%macro IDCT_DC_NOROUND 1
	37	imul %1, 13133
	38	sar %1, 11
	39	%endmacro
	40
	41	%macro IDCT_DC_ROUND 1
	42	imul %1, 13*13
	43	add %1, 0x200
	44	sar %1, 10
	45	%endmacro
	46
	47	%macro rv34_idct 1
	48	cglobal rv34_idct_%1, 1, 2, 0
	49	movsx r1, word [r0]
	50	IDCT_DC r1
	51	movd m0, r1d
	52	pshufw m0, m0, 0
	53	movq [r0+ 0], m0
	54	movq [r0+ 8], m0
	55	movq [r0+16], m0
	56	movq [r0+24], m0
	57	REP_RET
	58	%endmacro
	59
	60	INIT_MMX mmxext
	61	%define IDCT_DC IDCT_DC_ROUND
	62	rv34_idct dc
	63	%define IDCT_DC IDCT_DC_NOROUND
	64	rv34_idct dc_noround
	65
	66	; ff_rv34_idct_dc_add_mmx(uint8_t *dst, int stride, int dc);
	67	INIT_MMX mmx
	68	cglobal rv34_idct_dc_add, 3, 3
	69	; calculate DC
	70	IDCT_DC_ROUND r2
	71	pxor m1, m1
	72	movd m0, r2d
	73	psubw m1, m0
	74	packuswb m0, m0
	75	packuswb m1, m1
	76	punpcklbw m0, m0
	77	punpcklbw m1, m1
	78	punpcklwd m0, m0
	79	punpcklwd m1, m1
	80
	81	; add DC
	82	lea r2, [r0+r1*2]
	83	movh m2, [r0]
	84	movh m3, [r0+r1]
	85	movh m4, [r2]
	86	movh m5, [r2+r1]
	87	paddusb m2, m0
	88	paddusb m3, m0
	89	paddusb m4, m0
	90	paddusb m5, m0
	91	psubusb m2, m1
	92	psubusb m3, m1
	93	psubusb m4, m1
	94	psubusb m5, m1
	95	movh [r0], m2
	96	movh [r0+r1], m3
	97	movh [r2], m4
	98	movh [r2+r1], m5
	99	RET
	100
	101	; Load coeffs and perform row transform
	102	; Output: coeffs in mm[0467], rounder in mm5
	103	%macro ROW_TRANSFORM 1
	104	pxor mm7, mm7
	105	mova mm0, [%1+ 0*8]
	106	mova mm1, [%1+ 1*8]
	107	mova mm2, [%1+ 2*8]
	108	mova mm3, [%1+ 3*8]
	109	mova [%1+ 0*8], mm7
	110	mova [%1+ 1*8], mm7
	111	mova [%1+ 2*8], mm7
	112	mova [%1+ 3*8], mm7
	113	mova mm4, mm0
	114	mova mm6, [pw_row_coeffs+ 0]
	115	paddsw mm0, mm2 ; b0 + b2
	116	psubsw mm4, mm2 ; b0 - b2
	117	pmullw mm0, mm6 ; *13 = z0
	118	pmullw mm4, mm6 ; *13 = z1
	119	mova mm5, mm1
	120	pmullw mm1, [pw_row_coeffs+ 8] ; b1*17
	121	pmullw mm5, [pw_row_coeffs+16] ; b1* 7
	122	mova mm7, mm3
	123	pmullw mm3, [pw_row_coeffs+ 8] ; b3*17
	124	pmullw mm7, [pw_row_coeffs+16] ; b3* 7
	125	paddsw mm1, mm7 ; z3 = b117 + b3 7
	126	psubsw mm5, mm3 ; z2 = b1* 7 - b3*17
	127	mova mm7, mm0
	128	mova mm6, mm4
	129	paddsw mm0, mm1 ; z0 + z3
	130	psubsw mm7, mm1 ; z0 - z3
	131	paddsw mm4, mm5 ; z1 + z2
	132	psubsw mm6, mm5 ; z1 - z2
	133	mova mm5, [pd_512] ; 0x200
	134	%endmacro
	135
	136	; ff_rv34_idct_add_mmxext(uint8_t dst, ptrdiff_t stride, int16_t block);
	137	%macro COL_TRANSFORM 4
	138	pshufw mm3, %2, 0xDD ; col. 1,3,1,3
	139	pshufw %2, %2, 0x88 ; col. 0,2,0,2
	140	pmaddwd %2, %3 ; 13c0+13c2 \| 13c0-13c2 = z0 \| z1
	141	pmaddwd mm3, %4 ; 17c1+ 7c3 \| 7c1-17c3 = z3 \| z2
	142	paddd %2, mm5
	143	pshufw mm1, %2, 01001110b ; z1 \| z0
	144	pshufw mm2, mm3, 01001110b ; z2 \| z3
	145	paddd %2, mm3 ; z0+z3 \| z1+z2
	146	psubd mm1, mm2 ; z1-z2 \| z0-z3
	147	movd mm3, %1
	148	psrad %2, 10
	149	pxor mm2, mm2
	150	psrad mm1, 10
	151	punpcklbw mm3, mm2
	152	packssdw %2, mm1
	153	paddw %2, mm3
	154	packuswb %2, %2
	155	movd %1, %2
	156	%endmacro
	157	INIT_MMX mmxext
	158	cglobal rv34_idct_add, 3,3,0, d, s, b
	159	ROW_TRANSFORM bq
	160	COL_TRANSFORM [dq], mm0, [pw_col_coeffs+ 0], [pw_col_coeffs+ 8]
	161	mova mm0, [pw_col_coeffs+ 0]
	162	COL_TRANSFORM [dq+sq], mm4, mm0, [pw_col_coeffs+ 8]
	163	mova mm4, [pw_col_coeffs+ 8]
	164	lea dq, [dq + 2*sq]
	165	COL_TRANSFORM [dq], mm6, mm0, mm4
	166	COL_TRANSFORM [dq+sq], mm7, mm0, mm4
	167	ret
	168
	169	; ff_rv34_idct_dc_add_sse4(uint8_t *dst, int stride, int dc);
	170	INIT_XMM sse4
	171	cglobal rv34_idct_dc_add, 3, 3, 6
	172	; load data
	173	IDCT_DC_ROUND r2
	174	pxor m1, m1
	175
	176	; calculate DC
	177	movd m0, r2d
	178	lea r2, [r0+r1*2]
	179	movd m2, [r0]
	180	movd m3, [r0+r1]
	181	pshuflw m0, m0, 0
	182	movd m4, [r2]
	183	movd m5, [r2+r1]
	184	punpcklqdq m0, m0
	185	punpckldq m2, m3
	186	punpckldq m4, m5
	187	punpcklbw m2, m1
	188	punpcklbw m4, m1
	189	paddw m2, m0
	190	paddw m4, m0
	191	packuswb m2, m4
	192	movd [r0], m2
	193	pextrd [r0+r1], m2, 1
	194	pextrd [r2], m2, 2
	195	pextrd [r2+r1], m2, 3
	196	RET