[deb_ffmpeg.git] / ffmpeg / libavcodec / x86 / mpegvideoencdsp.asm

;*****************************************************************************
;* SIMD-optimized MPEG encoding functions
;*****************************************************************************
;* Copyright (c) 2000, 2001 Fabrice Bellard
;* Copyright (c) 2002-2004 Michael Niedermayer <michaelni@gmx.at>
;*
;* This file is part of FFmpeg.
;*
;* FFmpeg is free software; you can redistribute it and/or
;* modify it under the terms of the GNU Lesser General Public
;* License as published by the Free Software Foundation; either
;* version 2.1 of the License, or (at your option) any later version.
;*
;* FFmpeg is distributed in the hope that it will be useful,
;* but WITHOUT ANY WARRANTY; without even the implied warranty of
;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
;* Lesser General Public License for more details.
;*
;* You should have received a copy of the GNU Lesser General Public
;* License along with FFmpeg; if not, write to the Free Software
;* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
;*****************************************************************************

%include "libavutil/x86/x86util.asm"

SECTION_RODATA

cextern pw_1

SECTION .text
; int ff_pix_sum16_mmx(uint8_t *pix, int line_size)
; %1 = number of xmm registers used
; %2 = number of loops
; %3 = number of GPRs used
%macro PIX_SUM16 4
cglobal pix_sum16, 2, %3, %1
    movsxdifnidn r1, r1d
    mov          r2, %2
%if cpuflag(xop)
    lea          r3, [r1*3]
%else
    pxor         m5, m5
%endif
    pxor         m4, m4
.loop:
%if cpuflag(xop)
    vphaddubq    m0, [r0]
    vphaddubq    m1, [r0+r1]
    vphaddubq    m2, [r0+r1*2]
    vphaddubq    m3, [r0+r3]
%else
    mova         m0, [r0]
%if mmsize == 8
    mova         m1, [r0+8]
%else
    mova         m1, [r0+r1]
%endif
    punpckhbw    m2, m0, m5
    punpcklbw    m0, m5
    punpckhbw    m3, m1, m5
    punpcklbw    m1, m5
%endif ; cpuflag(xop)
    paddw        m1, m0
    paddw        m3, m2
    paddw        m3, m1
    paddw        m4, m3
%if mmsize == 8
    add          r0, r1
%else
    lea          r0, [r0+r1*%4]
%endif
    dec r2
    jne .loop
%if cpuflag(xop)
    pshufd       m0, m4, q0032
    paddd        m4, m0
%else
    HADDW        m4, m5
%endif
    movd        eax, m4
    RET
%endmacro

INIT_MMX mmx
PIX_SUM16 0, 16, 3, 0
INIT_XMM sse2
PIX_SUM16 6, 8,  3, 2
%if HAVE_XOP_EXTERNAL
INIT_XMM xop
PIX_SUM16 5, 4,  4, 4
%endif

; int ff_pix_norm1_mmx(uint8_t *pix, int line_size)
; %1 = number of xmm registers used
; %2 = number of loops
%macro PIX_NORM1 2
cglobal pix_norm1, 2, 3, %1
    movsxdifnidn r1, r1d
    mov          r2, %2
    pxor         m0, m0
    pxor         m5, m5
.loop:
    mova         m2, [r0+0]
%if mmsize == 8
    mova         m3, [r0+8]
%else
    mova         m3, [r0+r1]
%endif
    punpckhbw    m1, m2, m0
    punpcklbw    m2, m0
    punpckhbw    m4, m3, m0
    punpcklbw    m3, m0
    pmaddwd      m1, m1
    pmaddwd      m2, m2
    pmaddwd      m3, m3
    pmaddwd      m4, m4
    paddd        m2, m1
    paddd        m4, m3
    paddd        m5, m2
    paddd        m5, m4
%if mmsize == 8
    add          r0, r1
%else
    lea          r0, [r0+r1*2]
%endif
    dec r2
    jne .loop
    HADDD        m5, m1
    movd        eax, m5
    RET
%endmacro

INIT_MMX mmx
PIX_NORM1 0, 16
INIT_XMM sse2
PIX_NORM1 6, 8
Commit	Line	Data
2ba45a60 DM	1	;*****************************************************************************
	2	;* SIMD-optimized MPEG encoding functions
	3	;*****************************************************************************
	4	;* Copyright (c) 2000, 2001 Fabrice Bellard
	5	;* Copyright (c) 2002-2004 Michael Niedermayer <michaelni@gmx.at>
	6	;*
	7	;* This file is part of FFmpeg.
	8	;*
	9	;* FFmpeg is free software; you can redistribute it and/or
	10	;* modify it under the terms of the GNU Lesser General Public
	11	;* License as published by the Free Software Foundation; either
	12	;* version 2.1 of the License, or (at your option) any later version.
	13	;*
	14	;* FFmpeg is distributed in the hope that it will be useful,
	15	;* but WITHOUT ANY WARRANTY; without even the implied warranty of
	16	;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GNU
	17	;* Lesser General Public License for more details.
	18	;*
	19	;* You should have received a copy of the GNU Lesser General Public
	20	;* License along with FFmpeg; if not, write to the Free Software
	21	;* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
	22	;*****************************************************************************
	23
	24	%include "libavutil/x86/x86util.asm"
	25
	26	SECTION_RODATA
	27
	28	cextern pw_1
	29
	30	SECTION .text
	31	; int ff_pix_sum16_mmx(uint8_t *pix, int line_size)
	32	; %1 = number of xmm registers used
	33	; %2 = number of loops
	34	; %3 = number of GPRs used
	35	%macro PIX_SUM16 4
	36	cglobal pix_sum16, 2, %3, %1
	37	movsxdifnidn r1, r1d
	38	mov r2, %2
	39	%if cpuflag(xop)
	40	lea r3, [r1*3]
	41	%else
	42	pxor m5, m5
	43	%endif
	44	pxor m4, m4
	45	.loop:
	46	%if cpuflag(xop)
	47	vphaddubq m0, [r0]
	48	vphaddubq m1, [r0+r1]
	49	vphaddubq m2, [r0+r1*2]
	50	vphaddubq m3, [r0+r3]
	51	%else
	52	mova m0, [r0]
	53	%if mmsize == 8
	54	mova m1, [r0+8]
	55	%else
	56	mova m1, [r0+r1]
	57	%endif
	58	punpckhbw m2, m0, m5
	59	punpcklbw m0, m5
	60	punpckhbw m3, m1, m5
	61	punpcklbw m1, m5
	62	%endif ; cpuflag(xop)
	63	paddw m1, m0
	64	paddw m3, m2
65	paddw m3, m1
66	paddw m4, m3
67	%if mmsize == 8
68	add r0, r1
69	%else
70	lea r0, [r0+r1*%4]
71	%endif
72	dec r2
73	jne .loop
74	%if cpuflag(xop)
75	pshufd m0, m4, q0032
76	paddd m4, m0
77	%else
78	HADDW m4, m5
79	%endif
80	movd eax, m4
81	RET
82	%endmacro
83
84	INIT_MMX mmx
85	PIX_SUM16 0, 16, 3, 0
86	INIT_XMM sse2
87	PIX_SUM16 6, 8, 3, 2
88	%if HAVE_XOP_EXTERNAL
89	INIT_XMM xop
90	PIX_SUM16 5, 4, 4, 4
91	%endif
92
93	; int ff_pix_norm1_mmx(uint8_t *pix, int line_size)
94	; %1 = number of xmm registers used
95	; %2 = number of loops
96	%macro PIX_NORM1 2
97	cglobal pix_norm1, 2, 3, %1
98	movsxdifnidn r1, r1d
99	mov r2, %2
100	pxor m0, m0
101	pxor m5, m5
102	.loop:
103	mova m2, [r0+0]
104	%if mmsize == 8
105	mova m3, [r0+8]
106	%else
107	mova m3, [r0+r1]
108	%endif
109	punpckhbw m1, m2, m0
110	punpcklbw m2, m0
111	punpckhbw m4, m3, m0
112	punpcklbw m3, m0
113	pmaddwd m1, m1
114	pmaddwd m2, m2
115	pmaddwd m3, m3
116	pmaddwd m4, m4
117	paddd m2, m1
118	paddd m4, m3
119	paddd m5, m2
120	paddd m5, m4
121	%if mmsize == 8
122	add r0, r1
123	%else
124	lea r0, [r0+r1*2]
125	%endif
126	dec r2
127	jne .loop
128	HADDD m5, m1
129	movd eax, m5
130	RET
131	%endmacro
132
133	INIT_MMX mmx
134	PIX_NORM1 0, 16
135	INIT_XMM sse2
136	PIX_NORM1 6, 8
137