[deb_ffmpeg.git] / ffmpeg / libavutil / x86 / float_dsp.asm

;*****************************************************************************
;* x86-optimized Float DSP functions
;*
;* Copyright 2006 Loren Merritt
;*
;* This file is part of FFmpeg.
;*
;* FFmpeg is free software; you can redistribute it and/or
;* modify it under the terms of the GNU Lesser General Public
;* License as published by the Free Software Foundation; either
;* version 2.1 of the License, or (at your option) any later version.
;*
;* FFmpeg is distributed in the hope that it will be useful,
;* but WITHOUT ANY WARRANTY; without even the implied warranty of
;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
;* Lesser General Public License for more details.
;*
;* You should have received a copy of the GNU Lesser General Public
;* License along with FFmpeg; if not, write to the Free Software
;* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
;******************************************************************************

%include "x86util.asm"

SECTION .text

;-----------------------------------------------------------------------------
; void vector_fmul(float *dst, const float *src0, const float *src1, int len)
;-----------------------------------------------------------------------------
%macro VECTOR_FMUL 0
cglobal vector_fmul, 4,4,2, dst, src0, src1, len
    lea       lenq, [lend*4 - 64]
ALIGN 16
.loop:
%assign a 0
%rep 32/mmsize
    mova      m0,   [src0q + lenq + (a+0)*mmsize]
    mova      m1,   [src0q + lenq + (a+1)*mmsize]
    mulps     m0, m0, [src1q + lenq + (a+0)*mmsize]
    mulps     m1, m1, [src1q + lenq + (a+1)*mmsize]
    mova      [dstq + lenq + (a+0)*mmsize], m0
    mova      [dstq + lenq + (a+1)*mmsize], m1
%assign a a+2
%endrep

    sub       lenq, 64
    jge       .loop
    REP_RET
%endmacro

INIT_XMM sse
VECTOR_FMUL
%if HAVE_AVX_EXTERNAL
INIT_YMM avx
VECTOR_FMUL
%endif

;------------------------------------------------------------------------------
; void ff_vector_fmac_scalar(float *dst, const float *src, float mul, int len)
;------------------------------------------------------------------------------

%macro VECTOR_FMAC_SCALAR 0
%if UNIX64
cglobal vector_fmac_scalar, 3,3,5, dst, src, len
%else
cglobal vector_fmac_scalar, 4,4,5, dst, src, mul, len
%endif
%if ARCH_X86_32
    VBROADCASTSS m0, mulm
%else
%if WIN64
    SWAP 0, 2
%endif
    shufps      xm0, xm0, 0
%if cpuflag(avx)
    vinsertf128  m0, m0, xm0, 1
%endif
%endif
    lea    lenq, [lend*4-64]
.loop:
%if cpuflag(fma3)
    mova     m1,     [dstq+lenq]
    mova     m2,     [dstq+lenq+1*mmsize]
    fmaddps  m1, m0, [srcq+lenq], m1
    fmaddps  m2, m0, [srcq+lenq+1*mmsize], m2
%else ; cpuflag
    mulps    m1, m0, [srcq+lenq]
    mulps    m2, m0, [srcq+lenq+1*mmsize]
%if mmsize < 32
    mulps    m3, m0, [srcq+lenq+2*mmsize]
    mulps    m4, m0, [srcq+lenq+3*mmsize]
%endif ; mmsize
    addps    m1, m1, [dstq+lenq]
    addps    m2, m2, [dstq+lenq+1*mmsize]
%if mmsize < 32
    addps    m3, m3, [dstq+lenq+2*mmsize]
    addps    m4, m4, [dstq+lenq+3*mmsize]
%endif ; mmsize
%endif ; cpuflag
    mova  [dstq+lenq], m1
    mova  [dstq+lenq+1*mmsize], m2
%if mmsize < 32
    mova  [dstq+lenq+2*mmsize], m3
    mova  [dstq+lenq+3*mmsize], m4
%endif ; mmsize
    sub    lenq, 64
    jge .loop
    REP_RET
%endmacro

INIT_XMM sse
VECTOR_FMAC_SCALAR
%if HAVE_AVX_EXTERNAL
INIT_YMM avx
VECTOR_FMAC_SCALAR
%endif
%if HAVE_FMA3_EXTERNAL
INIT_YMM fma3
VECTOR_FMAC_SCALAR
%endif

;------------------------------------------------------------------------------
; void ff_vector_fmul_scalar(float *dst, const float *src, float mul, int len)
;------------------------------------------------------------------------------

%macro VECTOR_FMUL_SCALAR 0
%if UNIX64
cglobal vector_fmul_scalar, 3,3,2, dst, src, len
%else
cglobal vector_fmul_scalar, 4,4,3, dst, src, mul, len
%endif
%if ARCH_X86_32
    movss    m0, mulm
%elif WIN64
    SWAP 0, 2
%endif
    shufps   m0, m0, 0
    lea    lenq, [lend*4-mmsize]
.loop:
    mova     m1, [srcq+lenq]
    mulps    m1, m0
    mova  [dstq+lenq], m1
    sub    lenq, mmsize
    jge .loop
    REP_RET
%endmacro

INIT_XMM sse
VECTOR_FMUL_SCALAR

;------------------------------------------------------------------------------
; void ff_vector_dmul_scalar(double *dst, const double *src, double mul,
;                            int len)
;------------------------------------------------------------------------------

%macro VECTOR_DMUL_SCALAR 0
%if ARCH_X86_32
cglobal vector_dmul_scalar, 3,4,3, dst, src, mul, len, lenaddr
    mov          lenq, lenaddrm
%elif UNIX64
cglobal vector_dmul_scalar, 3,3,3, dst, src, len
%else
cglobal vector_dmul_scalar, 4,4,3, dst, src, mul, len
%endif
%if ARCH_X86_32
    VBROADCASTSD   m0, mulm
%else
%if WIN64
    SWAP 0, 2
%endif
    movlhps       xm0, xm0
%if cpuflag(avx)
    vinsertf128   ym0, ym0, xm0, 1
%endif
%endif
    lea          lenq, [lend*8-2*mmsize]
.loop:
    mulpd          m1, m0, [srcq+lenq       ]
    mulpd          m2, m0, [srcq+lenq+mmsize]
    mova   [dstq+lenq       ], m1
    mova   [dstq+lenq+mmsize], m2
    sub          lenq, 2*mmsize
    jge .loop
    REP_RET
%endmacro

INIT_XMM sse2
VECTOR_DMUL_SCALAR
%if HAVE_AVX_EXTERNAL
INIT_YMM avx
VECTOR_DMUL_SCALAR
%endif

;-----------------------------------------------------------------------------
; vector_fmul_window(float *dst, const float *src0,
;                    const float *src1, const float *win, int len);
;-----------------------------------------------------------------------------
%macro VECTOR_FMUL_WINDOW 0
cglobal vector_fmul_window, 5, 6, 6, dst, src0, src1, win, len, len1
    shl     lend, 2
    lea    len1q, [lenq - mmsize]
    add    src0q, lenq
    add     dstq, lenq
    add     winq, lenq
    neg     lenq
.loop
    mova      m0, [winq  + lenq]
    mova      m4, [src0q + lenq]
%if cpuflag(sse)
    mova      m1, [winq  + len1q]
    mova      m5, [src1q + len1q]
    shufps    m1, m1, 0x1b
    shufps    m5, m5, 0x1b
    mova      m2, m0
    mova      m3, m1
    mulps     m2, m4
    mulps     m3, m5
    mulps     m1, m4
    mulps     m0, m5
    addps     m2, m3
    subps     m1, m0
    shufps    m2, m2, 0x1b
%else
    pswapd    m1, [winq  + len1q]
    pswapd    m5, [src1q + len1q]
    mova      m2, m0
    mova      m3, m1
    pfmul     m2, m4
    pfmul     m3, m5
    pfmul     m1, m4
    pfmul     m0, m5
    pfadd     m2, m3
    pfsub     m1, m0
    pswapd    m2, m2
%endif
    mova      [dstq + lenq], m1
    mova      [dstq + len1q], m2
    sub       len1q, mmsize
    add       lenq,  mmsize
    jl .loop
%if mmsize == 8
    femms
%endif
    REP_RET
%endmacro

INIT_MMX 3dnowext
VECTOR_FMUL_WINDOW
INIT_XMM sse
VECTOR_FMUL_WINDOW

;-----------------------------------------------------------------------------
; vector_fmul_add(float *dst, const float *src0, const float *src1,
;                 const float *src2, int len)
;-----------------------------------------------------------------------------
%macro VECTOR_FMUL_ADD 0
cglobal vector_fmul_add, 5,5,4, dst, src0, src1, src2, len
    lea       lenq, [lend*4 - 2*mmsize]
ALIGN 16
.loop:
    mova    m0,   [src0q + lenq]
    mova    m1,   [src0q + lenq + mmsize]
%if cpuflag(fma3)
    mova    m2,     [src2q + lenq]
    mova    m3,     [src2q + lenq + mmsize]
    fmaddps m0, m0, [src1q + lenq], m2
    fmaddps m1, m1, [src1q + lenq + mmsize], m3
%else
    mulps   m0, m0, [src1q + lenq]
    mulps   m1, m1, [src1q + lenq + mmsize]
    addps   m0, m0, [src2q + lenq]
    addps   m1, m1, [src2q + lenq + mmsize]
%endif
    mova    [dstq + lenq], m0
    mova    [dstq + lenq + mmsize], m1

    sub     lenq,   2*mmsize
    jge     .loop
    REP_RET
%endmacro

INIT_XMM sse
VECTOR_FMUL_ADD
%if HAVE_AVX_EXTERNAL
INIT_YMM avx
VECTOR_FMUL_ADD
%endif
%if HAVE_FMA3_EXTERNAL
INIT_YMM fma3
VECTOR_FMUL_ADD
%endif

;-----------------------------------------------------------------------------
; void vector_fmul_reverse(float *dst, const float *src0, const float *src1,
;                          int len)
;-----------------------------------------------------------------------------
%macro VECTOR_FMUL_REVERSE 0
cglobal vector_fmul_reverse, 4,4,2, dst, src0, src1, len
    lea       lenq, [lend*4 - 2*mmsize]
ALIGN 16
.loop:
%if cpuflag(avx)
    vmovaps     xmm0, [src1q + 16]
    vinsertf128 m0, m0, [src1q], 1
    vshufps     m0, m0, m0, q0123
    vmovaps     xmm1, [src1q + mmsize + 16]
    vinsertf128 m1, m1, [src1q + mmsize], 1
    vshufps     m1, m1, m1, q0123
%else
    mova    m0, [src1q]
    mova    m1, [src1q + mmsize]
    shufps  m0, m0, q0123
    shufps  m1, m1, q0123
%endif
    mulps   m0, m0, [src0q + lenq + mmsize]
    mulps   m1, m1, [src0q + lenq]
    mova    [dstq + lenq + mmsize], m0
    mova    [dstq + lenq], m1
    add     src1q, 2*mmsize
    sub     lenq,  2*mmsize
    jge     .loop
    REP_RET
%endmacro

INIT_XMM sse
VECTOR_FMUL_REVERSE
%if HAVE_AVX_EXTERNAL
INIT_YMM avx
VECTOR_FMUL_REVERSE
%endif

; float scalarproduct_float_sse(const float *v1, const float *v2, int len)
INIT_XMM sse
cglobal scalarproduct_float, 3,3,2, v1, v2, offset
    neg   offsetq
    shl   offsetq, 2
    sub       v1q, offsetq
    sub       v2q, offsetq
    xorps    xmm0, xmm0
.loop:
    movaps   xmm1, [v1q+offsetq]
    mulps    xmm1, [v2q+offsetq]
    addps    xmm0, xmm1
    add   offsetq, 16
    js .loop
    movhlps  xmm1, xmm0
    addps    xmm0, xmm1
    movss    xmm1, xmm0
    shufps   xmm0, xmm0, 1
    addss    xmm0, xmm1
%if ARCH_X86_64 == 0
    movss     r0m,  xmm0
    fld dword r0m
%endif
    RET

;-----------------------------------------------------------------------------
; void ff_butterflies_float(float *src0, float *src1, int len);
;-----------------------------------------------------------------------------
INIT_XMM sse
cglobal butterflies_float, 3,3,3, src0, src1, len
%if ARCH_X86_64
    movsxd    lenq, lend
%endif
    test      lenq, lenq
    jz .end
    shl       lenq, 2
    add      src0q, lenq
    add      src1q, lenq
    neg       lenq
.loop:
    mova        m0, [src0q + lenq]
    mova        m1, [src1q + lenq]
    subps       m2, m0, m1
    addps       m0, m0, m1
    mova        [src1q + lenq], m2
    mova        [src0q + lenq], m0
    add       lenq, mmsize
    jl .loop
.end:
    REP_RET
Commit	Line	Data
	1	;*****************************************************************************
	2	;* x86-optimized Float DSP functions
	3	;*
	4	;* Copyright 2006 Loren Merritt
	5	;*
	6	;* This file is part of FFmpeg.
	7	;*
	8	;* FFmpeg is free software; you can redistribute it and/or
	9	;* modify it under the terms of the GNU Lesser General Public
	10	;* License as published by the Free Software Foundation; either
	11	;* version 2.1 of the License, or (at your option) any later version.
	12	;*
	13	;* FFmpeg is distributed in the hope that it will be useful,
	14	;* but WITHOUT ANY WARRANTY; without even the implied warranty of
	15	;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GNU
	16	;* Lesser General Public License for more details.
	17	;*
	18	;* You should have received a copy of the GNU Lesser General Public
	19	;* License along with FFmpeg; if not, write to the Free Software
	20	;* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
	21	;******************************************************************************
	22
	23	%include "x86util.asm"
	24
	25	SECTION .text
	26
	27	;-----------------------------------------------------------------------------
	28	; void vector_fmul(float dst, const float src0, const float *src1, int len)
	29	;-----------------------------------------------------------------------------
	30	%macro VECTOR_FMUL 0
	31	cglobal vector_fmul, 4,4,2, dst, src0, src1, len
	32	lea lenq, [lend*4 - 64]
	33	ALIGN 16
	34	.loop:
	35	%assign a 0
	36	%rep 32/mmsize
	37	mova m0, [src0q + lenq + (a+0)*mmsize]
	38	mova m1, [src0q + lenq + (a+1)*mmsize]
	39	mulps m0, m0, [src1q + lenq + (a+0)*mmsize]
	40	mulps m1, m1, [src1q + lenq + (a+1)*mmsize]
	41	mova [dstq + lenq + (a+0)*mmsize], m0
	42	mova [dstq + lenq + (a+1)*mmsize], m1
	43	%assign a a+2
	44	%endrep
	45
	46	sub lenq, 64
	47	jge .loop
	48	REP_RET
	49	%endmacro
	50
	51	INIT_XMM sse
	52	VECTOR_FMUL
	53	%if HAVE_AVX_EXTERNAL
	54	INIT_YMM avx
	55	VECTOR_FMUL
	56	%endif
	57
	58	;------------------------------------------------------------------------------
	59	; void ff_vector_fmac_scalar(float dst, const float src, float mul, int len)
	60	;------------------------------------------------------------------------------
	61
	62	%macro VECTOR_FMAC_SCALAR 0
	63	%if UNIX64
	64	cglobal vector_fmac_scalar, 3,3,5, dst, src, len
	65	%else
	66	cglobal vector_fmac_scalar, 4,4,5, dst, src, mul, len
	67	%endif
	68	%if ARCH_X86_32
	69	VBROADCASTSS m0, mulm
	70	%else
	71	%if WIN64
	72	SWAP 0, 2
	73	%endif
	74	shufps xm0, xm0, 0
	75	%if cpuflag(avx)
	76	vinsertf128 m0, m0, xm0, 1
	77	%endif
	78	%endif
	79	lea lenq, [lend*4-64]
	80	.loop:
	81	%if cpuflag(fma3)
	82	mova m1, [dstq+lenq]
	83	mova m2, [dstq+lenq+1*mmsize]
	84	fmaddps m1, m0, [srcq+lenq], m1
	85	fmaddps m2, m0, [srcq+lenq+1*mmsize], m2
	86	%else ; cpuflag
	87	mulps m1, m0, [srcq+lenq]
	88	mulps m2, m0, [srcq+lenq+1*mmsize]
	89	%if mmsize < 32
	90	mulps m3, m0, [srcq+lenq+2*mmsize]
	91	mulps m4, m0, [srcq+lenq+3*mmsize]
	92	%endif ; mmsize
	93	addps m1, m1, [dstq+lenq]
	94	addps m2, m2, [dstq+lenq+1*mmsize]
	95	%if mmsize < 32
	96	addps m3, m3, [dstq+lenq+2*mmsize]
	97	addps m4, m4, [dstq+lenq+3*mmsize]
	98	%endif ; mmsize
	99	%endif ; cpuflag
	100	mova [dstq+lenq], m1
	101	mova [dstq+lenq+1*mmsize], m2
	102	%if mmsize < 32
	103	mova [dstq+lenq+2*mmsize], m3
	104	mova [dstq+lenq+3*mmsize], m4
	105	%endif ; mmsize
	106	sub lenq, 64
	107	jge .loop
	108	REP_RET
	109	%endmacro
	110
	111	INIT_XMM sse
	112	VECTOR_FMAC_SCALAR
	113	%if HAVE_AVX_EXTERNAL
	114	INIT_YMM avx
	115	VECTOR_FMAC_SCALAR
	116	%endif
	117	%if HAVE_FMA3_EXTERNAL
	118	INIT_YMM fma3
	119	VECTOR_FMAC_SCALAR
	120	%endif
	121
	122	;------------------------------------------------------------------------------
	123	; void ff_vector_fmul_scalar(float dst, const float src, float mul, int len)
	124	;------------------------------------------------------------------------------
	125
	126	%macro VECTOR_FMUL_SCALAR 0
	127	%if UNIX64
	128	cglobal vector_fmul_scalar, 3,3,2, dst, src, len
	129	%else
	130	cglobal vector_fmul_scalar, 4,4,3, dst, src, mul, len
	131	%endif
	132	%if ARCH_X86_32
	133	movss m0, mulm
	134	%elif WIN64
	135	SWAP 0, 2
	136	%endif
	137	shufps m0, m0, 0
	138	lea lenq, [lend*4-mmsize]
	139	.loop:
	140	mova m1, [srcq+lenq]
	141	mulps m1, m0
	142	mova [dstq+lenq], m1
	143	sub lenq, mmsize
	144	jge .loop
	145	REP_RET
	146	%endmacro
	147
	148	INIT_XMM sse
	149	VECTOR_FMUL_SCALAR
	150
	151	;------------------------------------------------------------------------------
	152	; void ff_vector_dmul_scalar(double dst, const double src, double mul,
	153	; int len)
	154	;------------------------------------------------------------------------------
	155
	156	%macro VECTOR_DMUL_SCALAR 0
	157	%if ARCH_X86_32
	158	cglobal vector_dmul_scalar, 3,4,3, dst, src, mul, len, lenaddr
	159	mov lenq, lenaddrm
	160	%elif UNIX64
	161	cglobal vector_dmul_scalar, 3,3,3, dst, src, len
	162	%else
	163	cglobal vector_dmul_scalar, 4,4,3, dst, src, mul, len
	164	%endif
	165	%if ARCH_X86_32
	166	VBROADCASTSD m0, mulm
	167	%else
	168	%if WIN64
	169	SWAP 0, 2
	170	%endif
	171	movlhps xm0, xm0
	172	%if cpuflag(avx)
	173	vinsertf128 ym0, ym0, xm0, 1
	174	%endif
	175	%endif
	176	lea lenq, [lend8-2mmsize]
	177	.loop:
	178	mulpd m1, m0, [srcq+lenq ]
	179	mulpd m2, m0, [srcq+lenq+mmsize]
	180	mova [dstq+lenq ], m1
	181	mova [dstq+lenq+mmsize], m2
	182	sub lenq, 2*mmsize
	183	jge .loop
	184	REP_RET
	185	%endmacro
	186
	187	INIT_XMM sse2
	188	VECTOR_DMUL_SCALAR
	189	%if HAVE_AVX_EXTERNAL
	190	INIT_YMM avx
	191	VECTOR_DMUL_SCALAR
	192	%endif
	193
	194	;-----------------------------------------------------------------------------
	195	; vector_fmul_window(float dst, const float src0,
	196	; const float src1, const float win, int len);
	197	;-----------------------------------------------------------------------------
	198	%macro VECTOR_FMUL_WINDOW 0
	199	cglobal vector_fmul_window, 5, 6, 6, dst, src0, src1, win, len, len1
	200	shl lend, 2
	201	lea len1q, [lenq - mmsize]
	202	add src0q, lenq
	203	add dstq, lenq
	204	add winq, lenq
	205	neg lenq
	206	.loop
	207	mova m0, [winq + lenq]
	208	mova m4, [src0q + lenq]
	209	%if cpuflag(sse)
	210	mova m1, [winq + len1q]
	211	mova m5, [src1q + len1q]
	212	shufps m1, m1, 0x1b
	213	shufps m5, m5, 0x1b
	214	mova m2, m0
	215	mova m3, m1
	216	mulps m2, m4
	217	mulps m3, m5
	218	mulps m1, m4
	219	mulps m0, m5
	220	addps m2, m3
	221	subps m1, m0
	222	shufps m2, m2, 0x1b
	223	%else
	224	pswapd m1, [winq + len1q]
	225	pswapd m5, [src1q + len1q]
	226	mova m2, m0
	227	mova m3, m1
	228	pfmul m2, m4
	229	pfmul m3, m5
	230	pfmul m1, m4
	231	pfmul m0, m5
	232	pfadd m2, m3
	233	pfsub m1, m0
	234	pswapd m2, m2
	235	%endif
	236	mova [dstq + lenq], m1
	237	mova [dstq + len1q], m2
	238	sub len1q, mmsize
	239	add lenq, mmsize
	240	jl .loop
	241	%if mmsize == 8
	242	femms
	243	%endif
	244	REP_RET
	245	%endmacro
	246
	247	INIT_MMX 3dnowext
	248	VECTOR_FMUL_WINDOW
	249	INIT_XMM sse
	250	VECTOR_FMUL_WINDOW
	251
	252	;-----------------------------------------------------------------------------
	253	; vector_fmul_add(float dst, const float src0, const float *src1,
	254	; const float *src2, int len)
	255	;-----------------------------------------------------------------------------
	256	%macro VECTOR_FMUL_ADD 0
	257	cglobal vector_fmul_add, 5,5,4, dst, src0, src1, src2, len
	258	lea lenq, [lend4 - 2mmsize]
	259	ALIGN 16
	260	.loop:
	261	mova m0, [src0q + lenq]
	262	mova m1, [src0q + lenq + mmsize]
	263	%if cpuflag(fma3)
	264	mova m2, [src2q + lenq]
	265	mova m3, [src2q + lenq + mmsize]
	266	fmaddps m0, m0, [src1q + lenq], m2
	267	fmaddps m1, m1, [src1q + lenq + mmsize], m3
	268	%else
	269	mulps m0, m0, [src1q + lenq]
	270	mulps m1, m1, [src1q + lenq + mmsize]
	271	addps m0, m0, [src2q + lenq]
	272	addps m1, m1, [src2q + lenq + mmsize]
	273	%endif
	274	mova [dstq + lenq], m0
	275	mova [dstq + lenq + mmsize], m1
	276
	277	sub lenq, 2*mmsize
	278	jge .loop
	279	REP_RET
	280	%endmacro
	281
	282	INIT_XMM sse
	283	VECTOR_FMUL_ADD
	284	%if HAVE_AVX_EXTERNAL
	285	INIT_YMM avx
	286	VECTOR_FMUL_ADD
	287	%endif
	288	%if HAVE_FMA3_EXTERNAL
	289	INIT_YMM fma3
	290	VECTOR_FMUL_ADD
	291	%endif
	292
	293	;-----------------------------------------------------------------------------
	294	; void vector_fmul_reverse(float dst, const float src0, const float *src1,
	295	; int len)
	296	;-----------------------------------------------------------------------------
	297	%macro VECTOR_FMUL_REVERSE 0
	298	cglobal vector_fmul_reverse, 4,4,2, dst, src0, src1, len
	299	lea lenq, [lend4 - 2mmsize]
	300	ALIGN 16
	301	.loop:
	302	%if cpuflag(avx)
	303	vmovaps xmm0, [src1q + 16]
	304	vinsertf128 m0, m0, [src1q], 1
	305	vshufps m0, m0, m0, q0123
	306	vmovaps xmm1, [src1q + mmsize + 16]
	307	vinsertf128 m1, m1, [src1q + mmsize], 1
	308	vshufps m1, m1, m1, q0123
	309	%else
	310	mova m0, [src1q]
	311	mova m1, [src1q + mmsize]
	312	shufps m0, m0, q0123
	313	shufps m1, m1, q0123
	314	%endif
	315	mulps m0, m0, [src0q + lenq + mmsize]
	316	mulps m1, m1, [src0q + lenq]
	317	mova [dstq + lenq + mmsize], m0
	318	mova [dstq + lenq], m1
	319	add src1q, 2*mmsize
	320	sub lenq, 2*mmsize
	321	jge .loop
	322	REP_RET
	323	%endmacro
	324
	325	INIT_XMM sse
	326	VECTOR_FMUL_REVERSE
	327	%if HAVE_AVX_EXTERNAL
	328	INIT_YMM avx
	329	VECTOR_FMUL_REVERSE
	330	%endif
	331
	332	; float scalarproduct_float_sse(const float v1, const float v2, int len)
	333	INIT_XMM sse
	334	cglobal scalarproduct_float, 3,3,2, v1, v2, offset
	335	neg offsetq
	336	shl offsetq, 2
	337	sub v1q, offsetq
	338	sub v2q, offsetq
	339	xorps xmm0, xmm0
	340	.loop:
	341	movaps xmm1, [v1q+offsetq]
	342	mulps xmm1, [v2q+offsetq]
	343	addps xmm0, xmm1
	344	add offsetq, 16
	345	js .loop
	346	movhlps xmm1, xmm0
	347	addps xmm0, xmm1
	348	movss xmm1, xmm0
	349	shufps xmm0, xmm0, 1
	350	addss xmm0, xmm1
	351	%if ARCH_X86_64 == 0
	352	movss r0m, xmm0
	353	fld dword r0m
	354	%endif
	355	RET
	356
	357	;-----------------------------------------------------------------------------
	358	; void ff_butterflies_float(float src0, float src1, int len);
	359	;-----------------------------------------------------------------------------
	360	INIT_XMM sse
	361	cglobal butterflies_float, 3,3,3, src0, src1, len
	362	%if ARCH_X86_64
	363	movsxd lenq, lend
	364	%endif
	365	test lenq, lenq
	366	jz .end
	367	shl lenq, 2
	368	add src0q, lenq
	369	add src1q, lenq
	370	neg lenq
	371	.loop:
	372	mova m0, [src0q + lenq]
	373	mova m1, [src1q + lenq]
	374	subps m2, m0, m1
	375	addps m0, m0, m1
	376	mova [src1q + lenq], m2
	377	mova [src0q + lenq], m0
	378	add lenq, mmsize
	379	jl .loop
	380	.end:
	381	REP_RET