[deb_ffmpeg.git] / ffmpeg / libavcodec / x86 / qpel.asm

;******************************************************************************
;* SIMD-optimized quarterpel functions
;* Copyright (c) 2008 Loren Merritt
;* Copyright (c) 2003-2013 Michael Niedermayer
;* Copyright (c) 2013 Daniel Kang
;*
;* This file is part of FFmpeg.
;*
;* FFmpeg is free software; you can redistribute it and/or
;* modify it under the terms of the GNU Lesser General Public
;* License as published by the Free Software Foundation; either
;* version 2.1 of the License, or (at your option) any later version.
;*
;* FFmpeg is distributed in the hope that it will be useful,
;* but WITHOUT ANY WARRANTY; without even the implied warranty of
;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
;* Lesser General Public License for more details.
;*
;* You should have received a copy of the GNU Lesser General Public
;* License along with FFmpeg; if not, write to the Free Software
;* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
;******************************************************************************

%include "libavutil/x86/x86util.asm"

SECTION .text

%macro op_avgh 3
    movh   %3, %2
    pavgb  %1, %3
    movh   %2, %1
%endmacro

%macro op_avg 2
    pavgb  %1, %2
    mova   %2, %1
%endmacro

%macro op_puth 2-3
    movh   %2, %1
%endmacro

%macro op_put 2
    mova   %2, %1
%endmacro

; void ff_put/avg_pixels4_l2_mmxext(uint8_t *dst, uint8_t *src1, uint8_t *src2,
;                                   int dstStride, int src1Stride, int h)
%macro PIXELS4_L2 1
%define OP op_%1h
cglobal %1_pixels4_l2, 6,6
    movsxdifnidn r3, r3d
    movsxdifnidn r4, r4d
    test        r5d, 1
    je        .loop
    movd         m0, [r1]
    movd         m1, [r2]
    add          r1, r4
    add          r2, 4
    pavgb        m0, m1
    OP           m0, [r0], m3
    add          r0, r3
    dec         r5d
.loop:
    mova         m0, [r1]
    mova         m1, [r1+r4]
    lea          r1, [r1+2*r4]
    pavgb        m0, [r2]
    pavgb        m1, [r2+4]
    OP           m0, [r0], m3
    OP           m1, [r0+r3], m3
    lea          r0, [r0+2*r3]
    mova         m0, [r1]
    mova         m1, [r1+r4]
    lea          r1, [r1+2*r4]
    pavgb        m0, [r2+8]
    pavgb        m1, [r2+12]
    OP           m0, [r0], m3
    OP           m1, [r0+r3], m3
    lea          r0, [r0+2*r3]
    add          r2, 16
    sub         r5d, 4
    jne       .loop
    REP_RET
%endmacro

INIT_MMX mmxext
PIXELS4_L2 put
PIXELS4_L2 avg

; void ff_put/avg_pixels8_l2_mmxext(uint8_t *dst, uint8_t *src1, uint8_t *src2,
;                                   int dstStride, int src1Stride, int h)
%macro PIXELS8_L2 1
%define OP op_%1
cglobal %1_pixels8_l2, 6,6
    movsxdifnidn r3, r3d
    movsxdifnidn r4, r4d
    test        r5d, 1
    je        .loop
    mova         m0, [r1]
    mova         m1, [r2]
    add          r1, r4
    add          r2, 8
    pavgb        m0, m1
    OP           m0, [r0]
    add          r0, r3
    dec         r5d
.loop:
    mova         m0, [r1]
    mova         m1, [r1+r4]
    lea          r1, [r1+2*r4]
    pavgb        m0, [r2]
    pavgb        m1, [r2+8]
    OP           m0, [r0]
    OP           m1, [r0+r3]
    lea          r0, [r0+2*r3]
    mova         m0, [r1]
    mova         m1, [r1+r4]
    lea          r1, [r1+2*r4]
    pavgb        m0, [r2+16]
    pavgb        m1, [r2+24]
    OP           m0, [r0]
    OP           m1, [r0+r3]
    lea          r0, [r0+2*r3]
    add          r2, 32
    sub         r5d, 4
    jne       .loop
    REP_RET
%endmacro

INIT_MMX mmxext
PIXELS8_L2 put
PIXELS8_L2 avg

; void ff_put/avg_pixels16_l2_mmxext(uint8_t *dst, uint8_t *src1, uint8_t *src2,
;                                    int dstStride, int src1Stride, int h)
%macro PIXELS16_L2 1
%define OP op_%1
cglobal %1_pixels16_l2, 6,6
    movsxdifnidn r3, r3d
    movsxdifnidn r4, r4d
    test        r5d, 1
    je        .loop
    mova         m0, [r1]
    mova         m1, [r1+8]
    pavgb        m0, [r2]
    pavgb        m1, [r2+8]
    add          r1, r4
    add          r2, 16
    OP           m0, [r0]
    OP           m1, [r0+8]
    add          r0, r3
    dec         r5d
.loop:
    mova         m0, [r1]
    mova         m1, [r1+8]
    add          r1, r4
    pavgb        m0, [r2]
    pavgb        m1, [r2+8]
    OP           m0, [r0]
    OP           m1, [r0+8]
    add          r0, r3
    mova         m0, [r1]
    mova         m1, [r1+8]
    add          r1, r4
    pavgb        m0, [r2+16]
    pavgb        m1, [r2+24]
    OP           m0, [r0]
    OP           m1, [r0+8]
    add          r0, r3
    add          r2, 32
    sub         r5d, 2
    jne       .loop
    REP_RET
%endmacro

INIT_MMX mmxext
PIXELS16_L2 put
PIXELS16_L2 avg
Commit	Line	Data
2ba45a60 DM	1	;******************************************************************************
	2	;* SIMD-optimized quarterpel functions
	3	;* Copyright (c) 2008 Loren Merritt
	4	;* Copyright (c) 2003-2013 Michael Niedermayer
	5	;* Copyright (c) 2013 Daniel Kang
	6	;*
	7	;* This file is part of FFmpeg.
	8	;*
	9	;* FFmpeg is free software; you can redistribute it and/or
	10	;* modify it under the terms of the GNU Lesser General Public
	11	;* License as published by the Free Software Foundation; either
	12	;* version 2.1 of the License, or (at your option) any later version.
	13	;*
	14	;* FFmpeg is distributed in the hope that it will be useful,
	15	;* but WITHOUT ANY WARRANTY; without even the implied warranty of
	16	;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GNU
	17	;* Lesser General Public License for more details.
	18	;*
	19	;* You should have received a copy of the GNU Lesser General Public
	20	;* License along with FFmpeg; if not, write to the Free Software
	21	;* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
	22	;******************************************************************************
	23
	24	%include "libavutil/x86/x86util.asm"
	25
	26	SECTION .text
	27
	28	%macro op_avgh 3
	29	movh %3, %2
	30	pavgb %1, %3
	31	movh %2, %1
	32	%endmacro
	33
	34	%macro op_avg 2
	35	pavgb %1, %2
	36	mova %2, %1
	37	%endmacro
	38
	39	%macro op_puth 2-3
	40	movh %2, %1
	41	%endmacro
	42
	43	%macro op_put 2
	44	mova %2, %1
	45	%endmacro
	46
	47	; void ff_put/avg_pixels4_l2_mmxext(uint8_t dst, uint8_t src1, uint8_t *src2,
	48	; int dstStride, int src1Stride, int h)
	49	%macro PIXELS4_L2 1
	50	%define OP op_%1h
	51	cglobal %1_pixels4_l2, 6,6
	52	movsxdifnidn r3, r3d
	53	movsxdifnidn r4, r4d
	54	test r5d, 1
	55	je .loop
	56	movd m0, [r1]
	57	movd m1, [r2]
	58	add r1, r4
	59	add r2, 4
	60	pavgb m0, m1
	61	OP m0, [r0], m3
	62	add r0, r3
	63	dec r5d
	64	.loop:
65	mova m0, [r1]
66	mova m1, [r1+r4]
67	lea r1, [r1+2*r4]
68	pavgb m0, [r2]
69	pavgb m1, [r2+4]
70	OP m0, [r0], m3
71	OP m1, [r0+r3], m3
72	lea r0, [r0+2*r3]
73	mova m0, [r1]
74	mova m1, [r1+r4]
75	lea r1, [r1+2*r4]
76	pavgb m0, [r2+8]
77	pavgb m1, [r2+12]
78	OP m0, [r0], m3
79	OP m1, [r0+r3], m3
80	lea r0, [r0+2*r3]
81	add r2, 16
82	sub r5d, 4
83	jne .loop
84	REP_RET
85	%endmacro
86
87	INIT_MMX mmxext
88	PIXELS4_L2 put
89	PIXELS4_L2 avg
90
91	; void ff_put/avg_pixels8_l2_mmxext(uint8_t dst, uint8_t src1, uint8_t *src2,
92	; int dstStride, int src1Stride, int h)
93	%macro PIXELS8_L2 1
94	%define OP op_%1
95	cglobal %1_pixels8_l2, 6,6
96	movsxdifnidn r3, r3d
97	movsxdifnidn r4, r4d
98	test r5d, 1
99	je .loop
100	mova m0, [r1]
101	mova m1, [r2]
102	add r1, r4
103	add r2, 8
104	pavgb m0, m1
105	OP m0, [r0]
106	add r0, r3
107	dec r5d
108	.loop:
109	mova m0, [r1]
110	mova m1, [r1+r4]
111	lea r1, [r1+2*r4]
112	pavgb m0, [r2]
113	pavgb m1, [r2+8]
114	OP m0, [r0]
115	OP m1, [r0+r3]
116	lea r0, [r0+2*r3]
117	mova m0, [r1]
118	mova m1, [r1+r4]
119	lea r1, [r1+2*r4]
120	pavgb m0, [r2+16]
121	pavgb m1, [r2+24]
122	OP m0, [r0]
123	OP m1, [r0+r3]
124	lea r0, [r0+2*r3]
125	add r2, 32
126	sub r5d, 4
127	jne .loop
128	REP_RET
129	%endmacro
130
131	INIT_MMX mmxext
132	PIXELS8_L2 put
133	PIXELS8_L2 avg
134
135	; void ff_put/avg_pixels16_l2_mmxext(uint8_t dst, uint8_t src1, uint8_t *src2,
136	; int dstStride, int src1Stride, int h)
137	%macro PIXELS16_L2 1
138	%define OP op_%1
139	cglobal %1_pixels16_l2, 6,6
140	movsxdifnidn r3, r3d
141	movsxdifnidn r4, r4d
142	test r5d, 1
143	je .loop
144	mova m0, [r1]
145	mova m1, [r1+8]
146	pavgb m0, [r2]
147	pavgb m1, [r2+8]
148	add r1, r4
149	add r2, 16
150	OP m0, [r0]
151	OP m1, [r0+8]
152	add r0, r3
153	dec r5d
154	.loop:
155	mova m0, [r1]
156	mova m1, [r1+8]
157	add r1, r4
158	pavgb m0, [r2]
159	pavgb m1, [r2+8]
160	OP m0, [r0]
161	OP m1, [r0+8]
162	add r0, r3
163	mova m0, [r1]
164	mova m1, [r1+8]
165	add r1, r4
166	pavgb m0, [r2+16]
167	pavgb m1, [r2+24]
168	OP m0, [r0]
169	OP m1, [r0+8]
170	add r0, r3
171	add r2, 32
172	sub r5d, 2
173	jne .loop
174	REP_RET
175	%endmacro
176
177	INIT_MMX mmxext
178	PIXELS16_L2 put
179	PIXELS16_L2 avg