[deb_ffmpeg.git] / ffmpeg / libavutil / x86 / float_dsp.asm

;*****************************************************************************
;* x86-optimized Float DSP functions
;*
;* Copyright 2006 Loren Merritt
;*
;* This file is part of FFmpeg.
;*
;* FFmpeg is free software; you can redistribute it and/or
;* modify it under the terms of the GNU Lesser General Public
;* License as published by the Free Software Foundation; either
;* version 2.1 of the License, or (at your option) any later version.
;*
;* FFmpeg is distributed in the hope that it will be useful,
;* but WITHOUT ANY WARRANTY; without even the implied warranty of
;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
;* Lesser General Public License for more details.
;*
;* You should have received a copy of the GNU Lesser General Public
;* License along with FFmpeg; if not, write to the Free Software
;* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
;******************************************************************************

%include "x86util.asm"

SECTION .text

;-----------------------------------------------------------------------------
; void vector_fmul(float *dst, const float *src0, const float *src1, int len)
;-----------------------------------------------------------------------------
%macro VECTOR_FMUL 0
cglobal vector_fmul, 4,4,2, dst, src0, src1, len
    lea       lenq, [lend*4 - 64]
ALIGN 16
.loop:
%assign a 0
%rep 32/mmsize
    mova      m0,   [src0q + lenq + (a+0)*mmsize]
    mova      m1,   [src0q + lenq + (a+1)*mmsize]
    mulps     m0, m0, [src1q + lenq + (a+0)*mmsize]
    mulps     m1, m1, [src1q + lenq + (a+1)*mmsize]
    mova      [dstq + lenq + (a+0)*mmsize], m0
    mova      [dstq + lenq + (a+1)*mmsize], m1
%assign a a+2
%endrep

    sub       lenq, 64
    jge       .loop
    REP_RET
%endmacro

INIT_XMM sse
VECTOR_FMUL
%if HAVE_AVX_EXTERNAL
INIT_YMM avx
VECTOR_FMUL
%endif

;------------------------------------------------------------------------------
; void ff_vector_fmac_scalar(float *dst, const float *src, float mul, int len)
;------------------------------------------------------------------------------

%macro VECTOR_FMAC_SCALAR 0
%if UNIX64
cglobal vector_fmac_scalar, 3,3,5, dst, src, len
%else
cglobal vector_fmac_scalar, 4,4,5, dst, src, mul, len
%endif
%if ARCH_X86_32
    VBROADCASTSS m0, mulm
%else
%if WIN64
    SWAP 0, 2
%endif
    shufps      xm0, xm0, 0
%if cpuflag(avx)
    vinsertf128  m0, m0, xm0, 1
%endif
%endif
    lea    lenq, [lend*4-64]
.loop:
%if cpuflag(fma3)
    mova     m1,     [dstq+lenq]
    mova     m2,     [dstq+lenq+1*mmsize]
    fmaddps  m1, m0, [srcq+lenq], m1
    fmaddps  m2, m0, [srcq+lenq+1*mmsize], m2
%else ; cpuflag
    mulps    m1, m0, [srcq+lenq]
    mulps    m2, m0, [srcq+lenq+1*mmsize]
%if mmsize < 32
    mulps    m3, m0, [srcq+lenq+2*mmsize]
    mulps    m4, m0, [srcq+lenq+3*mmsize]
%endif ; mmsize
    addps    m1, m1, [dstq+lenq]
    addps    m2, m2, [dstq+lenq+1*mmsize]
%if mmsize < 32
    addps    m3, m3, [dstq+lenq+2*mmsize]
    addps    m4, m4, [dstq+lenq+3*mmsize]
%endif ; mmsize
%endif ; cpuflag
    mova  [dstq+lenq], m1
    mova  [dstq+lenq+1*mmsize], m2
%if mmsize < 32
    mova  [dstq+lenq+2*mmsize], m3
    mova  [dstq+lenq+3*mmsize], m4
%endif ; mmsize
    sub    lenq, 64
    jge .loop
    REP_RET
%endmacro

INIT_XMM sse
VECTOR_FMAC_SCALAR
%if HAVE_AVX_EXTERNAL
INIT_YMM avx
VECTOR_FMAC_SCALAR
%endif
%if HAVE_FMA3_EXTERNAL
INIT_YMM fma3
VECTOR_FMAC_SCALAR
%endif

;------------------------------------------------------------------------------
; void ff_vector_fmul_scalar(float *dst, const float *src, float mul, int len)
;------------------------------------------------------------------------------

%macro VECTOR_FMUL_SCALAR 0
%if UNIX64
cglobal vector_fmul_scalar, 3,3,2, dst, src, len
%else
cglobal vector_fmul_scalar, 4,4,3, dst, src, mul, len
%endif
%if ARCH_X86_32
    movss    m0, mulm
%elif WIN64
    SWAP 0, 2
%endif
    shufps   m0, m0, 0
    lea    lenq, [lend*4-mmsize]
.loop:
    mova     m1, [srcq+lenq]
    mulps    m1, m0
    mova  [dstq+lenq], m1
    sub    lenq, mmsize
    jge .loop
    REP_RET
%endmacro

INIT_XMM sse
VECTOR_FMUL_SCALAR

;------------------------------------------------------------------------------
; void ff_vector_dmul_scalar(double *dst, const double *src, double mul,
;                            int len)
;------------------------------------------------------------------------------

%macro VECTOR_DMUL_SCALAR 0
%if ARCH_X86_32
cglobal vector_dmul_scalar, 3,4,3, dst, src, mul, len, lenaddr
    mov          lenq, lenaddrm
%elif UNIX64
cglobal vector_dmul_scalar, 3,3,3, dst, src, len
%else
cglobal vector_dmul_scalar, 4,4,3, dst, src, mul, len
%endif
%if ARCH_X86_32
    VBROADCASTSD   m0, mulm
%else
%if WIN64
    SWAP 0, 2
%endif
    movlhps       xm0, xm0
%if cpuflag(avx)
    vinsertf128   ym0, ym0, xm0, 1
%endif
%endif
    lea          lenq, [lend*8-2*mmsize]
.loop:
    mulpd          m1, m0, [srcq+lenq       ]
    mulpd          m2, m0, [srcq+lenq+mmsize]
    mova   [dstq+lenq       ], m1
    mova   [dstq+lenq+mmsize], m2
    sub          lenq, 2*mmsize
    jge .loop
    REP_RET
%endmacro

INIT_XMM sse2
VECTOR_DMUL_SCALAR
%if HAVE_AVX_EXTERNAL
INIT_YMM avx
VECTOR_DMUL_SCALAR
%endif

;-----------------------------------------------------------------------------
; vector_fmul_window(float *dst, const float *src0,
;                    const float *src1, const float *win, int len);
;-----------------------------------------------------------------------------
%macro VECTOR_FMUL_WINDOW 0
cglobal vector_fmul_window, 5, 6, 6, dst, src0, src1, win, len, len1
    shl     lend, 2
    lea    len1q, [lenq - mmsize]
    add    src0q, lenq
    add     dstq, lenq
    add     winq, lenq
    neg     lenq
.loop
    mova      m0, [winq  + lenq]
    mova      m4, [src0q + lenq]
%if cpuflag(sse)
    mova      m1, [winq  + len1q]
    mova      m5, [src1q + len1q]
    shufps    m1, m1, 0x1b
    shufps    m5, m5, 0x1b
    mova      m2, m0
    mova      m3, m1
    mulps     m2, m4
    mulps     m3, m5
    mulps     m1, m4
    mulps     m0, m5
    addps     m2, m3
    subps     m1, m0
    shufps    m2, m2, 0x1b
%else
    pswapd    m1, [winq  + len1q]
    pswapd    m5, [src1q + len1q]
    mova      m2, m0
    mova      m3, m1
    pfmul     m2, m4
    pfmul     m3, m5
    pfmul     m1, m4
    pfmul     m0, m5
    pfadd     m2, m3
    pfsub     m1, m0
    pswapd    m2, m2
%endif
    mova      [dstq + lenq], m1
    mova      [dstq + len1q], m2
    sub       len1q, mmsize
    add       lenq,  mmsize
    jl .loop
%if mmsize == 8
    femms
%endif
    REP_RET
%endmacro

INIT_MMX 3dnowext
VECTOR_FMUL_WINDOW
INIT_XMM sse
VECTOR_FMUL_WINDOW

;-----------------------------------------------------------------------------
; vector_fmul_add(float *dst, const float *src0, const float *src1,
;                 const float *src2, int len)
;-----------------------------------------------------------------------------
%macro VECTOR_FMUL_ADD 0
cglobal vector_fmul_add, 5,5,4, dst, src0, src1, src2, len
    lea       lenq, [lend*4 - 2*mmsize]
ALIGN 16
.loop:
    mova    m0,   [src0q + lenq]
    mova    m1,   [src0q + lenq + mmsize]
%if cpuflag(fma3)
    mova    m2,     [src2q + lenq]
    mova    m3,     [src2q + lenq + mmsize]
    fmaddps m0, m0, [src1q + lenq], m2
    fmaddps m1, m1, [src1q + lenq + mmsize], m3
%else
    mulps   m0, m0, [src1q + lenq]
    mulps   m1, m1, [src1q + lenq + mmsize]
    addps   m0, m0, [src2q + lenq]
    addps   m1, m1, [src2q + lenq + mmsize]
%endif
    mova    [dstq + lenq], m0
    mova    [dstq + lenq + mmsize], m1

    sub     lenq,   2*mmsize
    jge     .loop
    REP_RET
%endmacro

INIT_XMM sse
VECTOR_FMUL_ADD
%if HAVE_AVX_EXTERNAL
INIT_YMM avx
VECTOR_FMUL_ADD
%endif
%if HAVE_FMA3_EXTERNAL
INIT_YMM fma3
VECTOR_FMUL_ADD
%endif

;-----------------------------------------------------------------------------
; void vector_fmul_reverse(float *dst, const float *src0, const float *src1,
;                          int len)
;-----------------------------------------------------------------------------
%macro VECTOR_FMUL_REVERSE 0
cglobal vector_fmul_reverse, 4,4,2, dst, src0, src1, len
    lea       lenq, [lend*4 - 2*mmsize]
ALIGN 16
.loop:
%if cpuflag(avx)
    vmovaps     xmm0, [src1q + 16]
    vinsertf128 m0, m0, [src1q], 1
    vshufps     m0, m0, m0, q0123
    vmovaps     xmm1, [src1q + mmsize + 16]
    vinsertf128 m1, m1, [src1q + mmsize], 1
    vshufps     m1, m1, m1, q0123
%else
    mova    m0, [src1q]
    mova    m1, [src1q + mmsize]
    shufps  m0, m0, q0123
    shufps  m1, m1, q0123
%endif
    mulps   m0, m0, [src0q + lenq + mmsize]
    mulps   m1, m1, [src0q + lenq]
    mova    [dstq + lenq + mmsize], m0
    mova    [dstq + lenq], m1
    add     src1q, 2*mmsize
    sub     lenq,  2*mmsize
    jge     .loop
    REP_RET
%endmacro

INIT_XMM sse
VECTOR_FMUL_REVERSE
%if HAVE_AVX_EXTERNAL
INIT_YMM avx
VECTOR_FMUL_REVERSE
%endif

; float scalarproduct_float_sse(const float *v1, const float *v2, int len)
INIT_XMM sse
cglobal scalarproduct_float, 3,3,2, v1, v2, offset
    neg   offsetq
    shl   offsetq, 2
    sub       v1q, offsetq
    sub       v2q, offsetq
    xorps    xmm0, xmm0
.loop:
    movaps   xmm1, [v1q+offsetq]
    mulps    xmm1, [v2q+offsetq]
    addps    xmm0, xmm1
    add   offsetq, 16
    js .loop
    movhlps  xmm1, xmm0
    addps    xmm0, xmm1
    movss    xmm1, xmm0
    shufps   xmm0, xmm0, 1
    addss    xmm0, xmm1
%if ARCH_X86_64 == 0
    movss     r0m,  xmm0
    fld dword r0m
%endif
    RET

;-----------------------------------------------------------------------------
; void ff_butterflies_float(float *src0, float *src1, int len);
;-----------------------------------------------------------------------------
INIT_XMM sse
cglobal butterflies_float, 3,3,3, src0, src1, len
%if ARCH_X86_64
    movsxd    lenq, lend
%endif
    test      lenq, lenq
    jz .end
    shl       lenq, 2
    add      src0q, lenq
    add      src1q, lenq
    neg       lenq
.loop:
    mova        m0, [src0q + lenq]
    mova        m1, [src1q + lenq]
    subps       m2, m0, m1
    addps       m0, m0, m1
    mova        [src1q + lenq], m2
    mova        [src0q + lenq], m0
    add       lenq, mmsize
    jl .loop
.end:
    REP_RET
Commit	Line	Data
2ba45a60 DM	1	;*****************************************************************************
	2	;* x86-optimized Float DSP functions
	3	;*
	4	;* Copyright 2006 Loren Merritt
	5	;*
	6	;* This file is part of FFmpeg.
	7	;*
	8	;* FFmpeg is free software; you can redistribute it and/or
	9	;* modify it under the terms of the GNU Lesser General Public
	10	;* License as published by the Free Software Foundation; either
	11	;* version 2.1 of the License, or (at your option) any later version.
	12	;*
	13	;* FFmpeg is distributed in the hope that it will be useful,
	14	;* but WITHOUT ANY WARRANTY; without even the implied warranty of
	15	;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GNU
	16	;* Lesser General Public License for more details.
	17	;*
	18	;* You should have received a copy of the GNU Lesser General Public
	19	;* License along with FFmpeg; if not, write to the Free Software
	20	;* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
	21	;******************************************************************************
	22
	23	%include "x86util.asm"
	24
	25	SECTION .text
	26
	27	;-----------------------------------------------------------------------------
	28	; void vector_fmul(float dst, const float src0, const float *src1, int len)
	29	;-----------------------------------------------------------------------------
	30	%macro VECTOR_FMUL 0
	31	cglobal vector_fmul, 4,4,2, dst, src0, src1, len
	32	lea lenq, [lend*4 - 64]
	33	ALIGN 16
	34	.loop:
	35	%assign a 0
	36	%rep 32/mmsize
	37	mova m0, [src0q + lenq + (a+0)*mmsize]
	38	mova m1, [src0q + lenq + (a+1)*mmsize]
	39	mulps m0, m0, [src1q + lenq + (a+0)*mmsize]
	40	mulps m1, m1, [src1q + lenq + (a+1)*mmsize]
	41	mova [dstq + lenq + (a+0)*mmsize], m0
	42	mova [dstq + lenq + (a+1)*mmsize], m1
	43	%assign a a+2
	44	%endrep
	45
	46	sub lenq, 64
	47	jge .loop
	48	REP_RET
	49	%endmacro
	50
	51	INIT_XMM sse
	52	VECTOR_FMUL
	53	%if HAVE_AVX_EXTERNAL
	54	INIT_YMM avx
	55	VECTOR_FMUL
	56	%endif
	57
	58	;------------------------------------------------------------------------------
	59	; void ff_vector_fmac_scalar(float dst, const float src, float mul, int len)
	60	;------------------------------------------------------------------------------
	61
	62	%macro VECTOR_FMAC_SCALAR 0
	63	%if UNIX64
	64	cglobal vector_fmac_scalar, 3,3,5, dst, src, len
65	%else
66	cglobal vector_fmac_scalar, 4,4,5, dst, src, mul, len
67	%endif
68	%if ARCH_X86_32
69	VBROADCASTSS m0, mulm
70	%else
71	%if WIN64
72	SWAP 0, 2
73	%endif
74	shufps xm0, xm0, 0
75	%if cpuflag(avx)
76	vinsertf128 m0, m0, xm0, 1
77	%endif
78	%endif
79	lea lenq, [lend*4-64]
80	.loop:
81	%if cpuflag(fma3)
82	mova m1, [dstq+lenq]
83	mova m2, [dstq+lenq+1*mmsize]
84	fmaddps m1, m0, [srcq+lenq], m1
85	fmaddps m2, m0, [srcq+lenq+1*mmsize], m2
86	%else ; cpuflag
87	mulps m1, m0, [srcq+lenq]
88	mulps m2, m0, [srcq+lenq+1*mmsize]
89	%if mmsize < 32
90	mulps m3, m0, [srcq+lenq+2*mmsize]
91	mulps m4, m0, [srcq+lenq+3*mmsize]
92	%endif ; mmsize
93	addps m1, m1, [dstq+lenq]
94	addps m2, m2, [dstq+lenq+1*mmsize]
95	%if mmsize < 32
96	addps m3, m3, [dstq+lenq+2*mmsize]
97	addps m4, m4, [dstq+lenq+3*mmsize]
98	%endif ; mmsize
99	%endif ; cpuflag
100	mova [dstq+lenq], m1
101	mova [dstq+lenq+1*mmsize], m2
102	%if mmsize < 32
103	mova [dstq+lenq+2*mmsize], m3
104	mova [dstq+lenq+3*mmsize], m4
105	%endif ; mmsize
106	sub lenq, 64
107	jge .loop
108	REP_RET
109	%endmacro
110
111	INIT_XMM sse
112	VECTOR_FMAC_SCALAR
113	%if HAVE_AVX_EXTERNAL
114	INIT_YMM avx
115	VECTOR_FMAC_SCALAR
116	%endif
117	%if HAVE_FMA3_EXTERNAL
118	INIT_YMM fma3
119	VECTOR_FMAC_SCALAR
120	%endif
121
122	;------------------------------------------------------------------------------
123	; void ff_vector_fmul_scalar(float dst, const float src, float mul, int len)
124	;------------------------------------------------------------------------------
125
126	%macro VECTOR_FMUL_SCALAR 0
127	%if UNIX64
128	cglobal vector_fmul_scalar, 3,3,2, dst, src, len
129	%else
130	cglobal vector_fmul_scalar, 4,4,3, dst, src, mul, len
131	%endif
132	%if ARCH_X86_32
133	movss m0, mulm
134	%elif WIN64
135	SWAP 0, 2
136	%endif
137	shufps m0, m0, 0
138	lea lenq, [lend*4-mmsize]
139	.loop:
140	mova m1, [srcq+lenq]
141	mulps m1, m0
142	mova [dstq+lenq], m1
143	sub lenq, mmsize
144	jge .loop
145	REP_RET
146	%endmacro
147
148	INIT_XMM sse
149	VECTOR_FMUL_SCALAR
150
151	;------------------------------------------------------------------------------
152	; void ff_vector_dmul_scalar(double dst, const double src, double mul,
153	; int len)
154	;------------------------------------------------------------------------------
155
156	%macro VECTOR_DMUL_SCALAR 0
157	%if ARCH_X86_32
158	cglobal vector_dmul_scalar, 3,4,3, dst, src, mul, len, lenaddr
159	mov lenq, lenaddrm
160	%elif UNIX64
161	cglobal vector_dmul_scalar, 3,3,3, dst, src, len
162	%else
163	cglobal vector_dmul_scalar, 4,4,3, dst, src, mul, len
164	%endif
165	%if ARCH_X86_32
166	VBROADCASTSD m0, mulm
167	%else
168	%if WIN64
169	SWAP 0, 2
170	%endif
171	movlhps xm0, xm0
172	%if cpuflag(avx)
173	vinsertf128 ym0, ym0, xm0, 1
174	%endif
175	%endif
176	lea lenq, [lend8-2mmsize]
177	.loop:
178	mulpd m1, m0, [srcq+lenq ]
179	mulpd m2, m0, [srcq+lenq+mmsize]
180	mova [dstq+lenq ], m1
181	mova [dstq+lenq+mmsize], m2
182	sub lenq, 2*mmsize
183	jge .loop
184	REP_RET
185	%endmacro
186
187	INIT_XMM sse2
188	VECTOR_DMUL_SCALAR
189	%if HAVE_AVX_EXTERNAL
190	INIT_YMM avx
191	VECTOR_DMUL_SCALAR
192	%endif
193
194	;-----------------------------------------------------------------------------
195	; vector_fmul_window(float dst, const float src0,
196	; const float src1, const float win, int len);
197	;-----------------------------------------------------------------------------
198	%macro VECTOR_FMUL_WINDOW 0
199	cglobal vector_fmul_window, 5, 6, 6, dst, src0, src1, win, len, len1
200	shl lend, 2
201	lea len1q, [lenq - mmsize]
202	add src0q, lenq
203	add dstq, lenq
204	add winq, lenq
205	neg lenq
206	.loop
207	mova m0, [winq + lenq]
208	mova m4, [src0q + lenq]
209	%if cpuflag(sse)
210	mova m1, [winq + len1q]
211	mova m5, [src1q + len1q]
212	shufps m1, m1, 0x1b
213	shufps m5, m5, 0x1b
214	mova m2, m0
215	mova m3, m1
216	mulps m2, m4
217	mulps m3, m5
218	mulps m1, m4
219	mulps m0, m5
220	addps m2, m3
221	subps m1, m0
222	shufps m2, m2, 0x1b
223	%else
224	pswapd m1, [winq + len1q]
225	pswapd m5, [src1q + len1q]
226	mova m2, m0
227	mova m3, m1
228	pfmul m2, m4
229	pfmul m3, m5
230	pfmul m1, m4
231	pfmul m0, m5
232	pfadd m2, m3
233	pfsub m1, m0
234	pswapd m2, m2
235	%endif
236	mova [dstq + lenq], m1
237	mova [dstq + len1q], m2
238	sub len1q, mmsize
239	add lenq, mmsize
240	jl .loop
241	%if mmsize == 8
242	femms
243	%endif
244	REP_RET
245	%endmacro
246
247	INIT_MMX 3dnowext
248	VECTOR_FMUL_WINDOW
249	INIT_XMM sse
250	VECTOR_FMUL_WINDOW
251
252	;-----------------------------------------------------------------------------
253	; vector_fmul_add(float dst, const float src0, const float *src1,
254	; const float *src2, int len)
255	;-----------------------------------------------------------------------------
256	%macro VECTOR_FMUL_ADD 0
257	cglobal vector_fmul_add, 5,5,4, dst, src0, src1, src2, len
258	lea lenq, [lend4 - 2mmsize]
259	ALIGN 16
260	.loop:
261	mova m0, [src0q + lenq]
262	mova m1, [src0q + lenq + mmsize]
263	%if cpuflag(fma3)
264	mova m2, [src2q + lenq]
265	mova m3, [src2q + lenq + mmsize]
266	fmaddps m0, m0, [src1q + lenq], m2
267	fmaddps m1, m1, [src1q + lenq + mmsize], m3
268	%else
269	mulps m0, m0, [src1q + lenq]
270	mulps m1, m1, [src1q + lenq + mmsize]
271	addps m0, m0, [src2q + lenq]
272	addps m1, m1, [src2q + lenq + mmsize]
273	%endif
274	mova [dstq + lenq], m0
275	mova [dstq + lenq + mmsize], m1
276
277	sub lenq, 2*mmsize
278	jge .loop
279	REP_RET
280	%endmacro
281
282	INIT_XMM sse
283	VECTOR_FMUL_ADD
284	%if HAVE_AVX_EXTERNAL
285	INIT_YMM avx
286	VECTOR_FMUL_ADD
287	%endif
288	%if HAVE_FMA3_EXTERNAL
289	INIT_YMM fma3
290	VECTOR_FMUL_ADD
291	%endif
292
293	;-----------------------------------------------------------------------------
294	; void vector_fmul_reverse(float dst, const float src0, const float *src1,
295	; int len)
296	;-----------------------------------------------------------------------------
297	%macro VECTOR_FMUL_REVERSE 0
298	cglobal vector_fmul_reverse, 4,4,2, dst, src0, src1, len
299	lea lenq, [lend4 - 2mmsize]
300	ALIGN 16
301	.loop:
302	%if cpuflag(avx)
303	vmovaps xmm0, [src1q + 16]
304	vinsertf128 m0, m0, [src1q], 1
305	vshufps m0, m0, m0, q0123
306	vmovaps xmm1, [src1q + mmsize + 16]
307	vinsertf128 m1, m1, [src1q + mmsize], 1
308	vshufps m1, m1, m1, q0123
309	%else
310	mova m0, [src1q]
311	mova m1, [src1q + mmsize]
312	shufps m0, m0, q0123
313	shufps m1, m1, q0123
314	%endif
315	mulps m0, m0, [src0q + lenq + mmsize]
316	mulps m1, m1, [src0q + lenq]
317	mova [dstq + lenq + mmsize], m0
318	mova [dstq + lenq], m1
319	add src1q, 2*mmsize
320	sub lenq, 2*mmsize
321	jge .loop
322	REP_RET
323	%endmacro
324
325	INIT_XMM sse
326	VECTOR_FMUL_REVERSE
327	%if HAVE_AVX_EXTERNAL
328	INIT_YMM avx
329	VECTOR_FMUL_REVERSE
330	%endif
331
332	; float scalarproduct_float_sse(const float v1, const float v2, int len)
333	INIT_XMM sse
334	cglobal scalarproduct_float, 3,3,2, v1, v2, offset
335	neg offsetq
336	shl offsetq, 2
337	sub v1q, offsetq
338	sub v2q, offsetq
339	xorps xmm0, xmm0
340	.loop:
341	movaps xmm1, [v1q+offsetq]
342	mulps xmm1, [v2q+offsetq]
343	addps xmm0, xmm1
344	add offsetq, 16
345	js .loop
346	movhlps xmm1, xmm0
347	addps xmm0, xmm1
348	movss xmm1, xmm0
349	shufps xmm0, xmm0, 1
350	addss xmm0, xmm1
351	%if ARCH_X86_64 == 0
352	movss r0m, xmm0
353	fld dword r0m
354	%endif
355	RET
356
357	;-----------------------------------------------------------------------------
358	; void ff_butterflies_float(float src0, float src1, int len);
359	;-----------------------------------------------------------------------------
360	INIT_XMM sse
361	cglobal butterflies_float, 3,3,3, src0, src1, len
362	%if ARCH_X86_64
363	movsxd lenq, lend
364	%endif
365	test lenq, lenq
366	jz .end
367	shl lenq, 2
368	add src0q, lenq
369	add src1q, lenq
370	neg lenq
371	.loop:
372	mova m0, [src0q + lenq]
373	mova m1, [src1q + lenq]
374	subps m2, m0, m1
375	addps m0, m0, m1
376	mova [src1q + lenq], m2
377	mova [src0q + lenq], m0
378	add lenq, mmsize
379	jl .loop
380	.end:
381	REP_RET