[deb_ffmpeg.git] / ffmpeg / libavcodec / x86 / sbrdsp.asm

;******************************************************************************
;* AAC Spectral Band Replication decoding functions
;* Copyright (C) 2012 Christophe Gisquet <christophe.gisquet@gmail.com>
;*
;* This file is part of FFmpeg.
;*
;* FFmpeg is free software; you can redistribute it and/or
;* modify it under the terms of the GNU Lesser General Public
;* License as published by the Free Software Foundation; either
;* version 2.1 of the License, or (at your option) any later version.
;*
;* FFmpeg is distributed in the hope that it will be useful,
;* but WITHOUT ANY WARRANTY; without even the implied warranty of
;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
;* Lesser General Public License for more details.
;*
;* You should have received a copy of the GNU Lesser General Public
;* License along with FFmpeg; if not, write to the Free Software
;* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
;******************************************************************************

%include "libavutil/x86/x86util.asm"

SECTION_RODATA
; mask equivalent for multiply by -1.0 1.0
ps_mask         times 2 dd 1<<31, 0
ps_mask2        times 2 dd 0, 1<<31
ps_noise0       times 2 dd  1.0,  0.0,
ps_noise2       times 2 dd -1.0,  0.0
ps_noise13      dd  0.0,  1.0, 0.0, -1.0
                dd  0.0, -1.0, 0.0,  1.0
                dd  0.0,  1.0, 0.0, -1.0
cextern         sbr_noise_table
cextern         ps_neg

SECTION_TEXT

INIT_XMM sse
cglobal sbr_sum_square, 2, 3, 6
    mov         r2, r1
    xorps       m0, m0
    xorps       m1, m1
    sar         r2, 3
    jz          .prepare
.loop:
    movu        m2, [r0 +  0]
    movu        m3, [r0 + 16]
    movu        m4, [r0 + 32]
    movu        m5, [r0 + 48]
    mulps       m2, m2
    mulps       m3, m3
    mulps       m4, m4
    mulps       m5, m5
    addps       m0, m2
    addps       m1, m3
    addps       m0, m4
    addps       m1, m5
    add         r0, 64
    dec         r2
    jnz         .loop
.prepare:
    and         r1, 7
    sar         r1, 1
    jz          .end
; len is a multiple of 2, thus there are at least 4 elements to process
.endloop:
    movu        m2, [r0]
    add         r0, 16
    mulps       m2, m2
    dec         r1
    addps       m0, m2
    jnz         .endloop
.end:
    addps       m0, m1
    movhlps     m2, m0
    addps       m0, m2
    movss       m1, m0
    shufps      m0, m0, 1
    addss       m0, m1
%if ARCH_X86_64 == 0
    movss       r0m,  m0
    fld         dword r0m
%endif
    RET

%define STEP  40*4*2
cglobal sbr_hf_g_filt, 5, 6, 5
    lea         r1, [r1 + 8*r4] ; offset by ixh elements into X_high
    mov         r5, r3
    and         r3, 0xFC
    lea         r2, [r2 + r3*4]
    lea         r0, [r0 + r3*8]
    neg         r3
    jz          .loop1
.loop4:
    movlps      m0, [r2 + 4*r3 + 0]
    movlps      m1, [r2 + 4*r3 + 8]
    movlps      m2, [r1 + 0*STEP]
    movlps      m3, [r1 + 2*STEP]
    movhps      m2, [r1 + 1*STEP]
    movhps      m3, [r1 + 3*STEP]
    unpcklps    m0, m0
    unpcklps    m1, m1
    mulps       m0, m2
    mulps       m1, m3
    movu        [r0 + 8*r3 +  0], m0
    movu        [r0 + 8*r3 + 16], m1
    add         r1, 4*STEP
    add         r3, 4
    jnz         .loop4
    and         r5, 3 ; number of single element loops
    jz          .end
.loop1: ; element 0 and 1 can be computed at the same time
    movss       m0, [r2]
    movlps      m2, [r1]
    unpcklps    m0, m0
    mulps       m2, m0
    movlps    [r0], m2
    add         r0, 8
    add         r2, 4
    add         r1, STEP
    dec         r5
    jnz         .loop1
.end:
    RET

; void ff_sbr_hf_gen_sse(float (*X_high)[2], const float (*X_low)[2],
;                        const float alpha0[2], const float alpha1[2],
;                        float bw, int start, int end)
;
cglobal sbr_hf_gen, 4,4,8, X_high, X_low, alpha0, alpha1, BW, S, E
    ; load alpha factors
%define bw m0
%if ARCH_X86_64 == 0 || WIN64
    movss      bw, BWm
%endif
    movlps     m2, [alpha1q]
    movlps     m1, [alpha0q]
    shufps     bw, bw, 0
    mulps      m2, bw             ; (a1[0] a1[1])*bw
    mulps      m1, bw             ; (a0[0] a0[1])*bw    = (a2 a3)
    mulps      m2, bw             ; (a1[0] a1[1])*bw*bw = (a0 a1)
    mova       m3, m1
    mova       m4, m2

    ; Set pointers
%if ARCH_X86_64 == 0 || WIN64
    ; start and end 6th and 7th args on stack
    mov        r2d, Sm
    mov        r3d, Em
%define  start r2q
%define  end   r3q
%else
; BW does not actually occupy a register, so shift by 1
%define  start BWq
%define  end   Sq
%endif
    sub      start, end          ; neg num of loops
    lea    X_highq, [X_highq + end*2*4]
    lea     X_lowq, [X_lowq  + end*2*4 - 2*2*4]
    shl      start, 3            ; offset from num loops

    mova        m0, [X_lowq + start]
    shufps      m3, m3, q1111
    shufps      m4, m4, q1111
    xorps       m3, [ps_mask]
    shufps      m1, m1, q0000
    shufps      m2, m2, q0000
    xorps       m4, [ps_mask]
.loop2:
    movu        m7, [X_lowq + start + 8]        ; BbCc
    mova        m6, m0
    mova        m5, m7
    shufps      m0, m0, q2301                   ; aAbB
    shufps      m7, m7, q2301                   ; bBcC
    mulps       m0, m4
    mulps       m7, m3
    mulps       m6, m2
    mulps       m5, m1
    addps       m7, m0
    mova        m0, [X_lowq + start +16]        ; CcDd
    addps       m7, m0
    addps       m6, m5
    addps       m7, m6
    mova  [X_highq + start], m7
    add     start, 16
    jnz         .loop2
    RET

cglobal sbr_sum64x5, 1,2,4,z
    lea    r1q, [zq+ 256]
.loop:
    mova    m0, [zq+   0]
    mova    m2, [zq+  16]
    mova    m1, [zq+ 256]
    mova    m3, [zq+ 272]
    addps   m0, [zq+ 512]
    addps   m2, [zq+ 528]
    addps   m1, [zq+ 768]
    addps   m3, [zq+ 784]
    addps   m0, [zq+1024]
    addps   m2, [zq+1040]
    addps   m0, m1
    addps   m2, m3
    mova  [zq], m0
    mova  [zq+16], m2
    add     zq, 32
    cmp     zq, r1q
    jne  .loop
    REP_RET

INIT_XMM sse
cglobal sbr_qmf_post_shuffle, 2,3,4,W,z
    lea              r2q, [zq + (64-4)*4]
    mova              m3, [ps_neg]
.loop:
    mova              m1, [zq]
    xorps             m0, m3, [r2q]
    shufps            m0, m0, m0, q0123
    unpcklps          m2, m0, m1
    unpckhps          m0, m0, m1
    mova       [Wq +  0], m2
    mova       [Wq + 16], m0
    add               Wq, 32
    sub              r2q, 16
    add               zq, 16
    cmp               zq, r2q
    jl             .loop
    REP_RET

INIT_XMM sse
cglobal sbr_neg_odd_64, 1,2,4,z
    lea        r1q, [zq+256]
.loop:
    mova        m0, [zq+ 0]
    mova        m1, [zq+16]
    mova        m2, [zq+32]
    mova        m3, [zq+48]
    xorps       m0, [ps_mask2]
    xorps       m1, [ps_mask2]
    xorps       m2, [ps_mask2]
    xorps       m3, [ps_mask2]
    mova   [zq+ 0], m0
    mova   [zq+16], m1
    mova   [zq+32], m2
    mova   [zq+48], m3
    add         zq, 64
    cmp         zq, r1q
    jne      .loop
    REP_RET

; void ff_sbr_qmf_deint_bfly_sse2(float *v, const float *src0, const float *src1)
%macro SBR_QMF_DEINT_BFLY  0
cglobal sbr_qmf_deint_bfly, 3,5,8, v,src0,src1,vrev,c
    mov               cq, 64*4-2*mmsize
    lea            vrevq, [vq + 64*4]
.loop:
    mova              m0, [src0q+cq]
    mova              m1, [src1q]
    mova              m4, [src0q+cq+mmsize]
    mova              m5, [src1q+mmsize]
%if cpuflag(sse2)
    pshufd            m2, m0, q0123
    pshufd            m3, m1, q0123
    pshufd            m6, m4, q0123
    pshufd            m7, m5, q0123
%else
    shufps            m2, m0, m0, q0123
    shufps            m3, m1, m1, q0123
    shufps            m6, m4, m4, q0123
    shufps            m7, m5, m5, q0123
%endif
    addps             m5, m2
    subps             m0, m7
    addps             m1, m6
    subps             m4, m3
    mova         [vrevq], m1
    mova  [vrevq+mmsize], m5
    mova         [vq+cq], m0
    mova  [vq+cq+mmsize], m4
    add            src1q, 2*mmsize
    add            vrevq, 2*mmsize
    sub               cq, 2*mmsize
    jge            .loop
    REP_RET
%endmacro

INIT_XMM sse
SBR_QMF_DEINT_BFLY

INIT_XMM sse2
SBR_QMF_DEINT_BFLY

INIT_XMM sse2
cglobal sbr_qmf_pre_shuffle, 1,4,6,z
%define OFFSET  (32*4-2*mmsize)
    mov       r3q, OFFSET
    lea       r1q, [zq + (32+1)*4]
    lea       r2q, [zq + 64*4]
    mova       m5, [ps_neg]
.loop:
    movu       m0, [r1q]
    movu       m2, [r1q + mmsize]
    movu       m1, [zq + r3q + 4 + mmsize]
    movu       m3, [zq + r3q + 4]

    pxor       m2, m5
    pxor       m0, m5
    pshufd     m2, m2, q0123
    pshufd     m0, m0, q0123
    SBUTTERFLY dq, 2, 3, 4
    SBUTTERFLY dq, 0, 1, 4
    mova  [r2q + 2*r3q + 0*mmsize], m2
    mova  [r2q + 2*r3q + 1*mmsize], m3
    mova  [r2q + 2*r3q + 2*mmsize], m0
    mova  [r2q + 2*r3q + 3*mmsize], m1
    add       r1q, 2*mmsize
    sub       r3q, 2*mmsize
    jge      .loop
    movq       m2, [zq]
    movq    [r2q], m2
    REP_RET

%ifdef PIC
%define NREGS 1
%if UNIX64
%define NOISE_TABLE r6q ; r5q is m_max
%else
%define NOISE_TABLE r5q
%endif
%else
%define NREGS 0
%define NOISE_TABLE sbr_noise_table
%endif

%macro LOAD_NST  1
%ifdef PIC
    lea  NOISE_TABLE, [%1]
    mova          m0, [kxq + NOISE_TABLE]
%else
    mova          m0, [kxq + %1]
%endif
%endmacro

INIT_XMM sse2
; sbr_hf_apply_noise_0(float (*Y)[2], const float *s_m,
;                      const float *q_filt, int noise,
;                      int kx, int m_max)
cglobal sbr_hf_apply_noise_0, 5,5+NREGS+UNIX64,8, Y,s_m,q_filt,noise,kx,m_max
    mova       m0, [ps_noise0]
    jmp apply_noise_main

; sbr_hf_apply_noise_1(float (*Y)[2], const float *s_m,
;                      const float *q_filt, int noise,
;                      int kx, int m_max)
cglobal sbr_hf_apply_noise_1, 5,5+NREGS+UNIX64,8, Y,s_m,q_filt,noise,kx,m_max
    and       kxq, 1
    shl       kxq, 4
    LOAD_NST  ps_noise13
    jmp apply_noise_main

; sbr_hf_apply_noise_2(float (*Y)[2], const float *s_m,
;                      const float *q_filt, int noise,
;                      int kx, int m_max)
cglobal sbr_hf_apply_noise_2, 5,5+NREGS+UNIX64,8, Y,s_m,q_filt,noise,kx,m_max
    mova       m0, [ps_noise2]
    jmp apply_noise_main

; sbr_hf_apply_noise_3(float (*Y)[2], const float *s_m,
;                      const float *q_filt, int noise,
;                      int kx, int m_max)
cglobal sbr_hf_apply_noise_3, 5,5+NREGS+UNIX64,8, Y,s_m,q_filt,noise,kx,m_max
    and       kxq, 1
    shl       kxq, 4
    LOAD_NST  ps_noise13+16

apply_noise_main:
%if ARCH_X86_64 == 0 || WIN64
    mov       kxd, m_maxm
%define count kxq
%else
%define count m_maxq
%endif
    dec    noiseq
    shl    count, 2
%ifdef PIC
    lea NOISE_TABLE, [sbr_noise_table]
%endif
    lea        Yq, [Yq + 2*count]
    add      s_mq, count
    add   q_filtq, count
    shl    noiseq, 3
    pxor       m5, m5
    neg    count
.loop:
    mova       m1, [q_filtq + count]
    movu       m3, [noiseq + NOISE_TABLE + 1*mmsize]
    movu       m4, [noiseq + NOISE_TABLE + 2*mmsize]
    add    noiseq, 2*mmsize
    and    noiseq, 0x1ff<<3
    punpckhdq  m2, m1, m1
    punpckldq  m1, m1
    mulps      m1, m3 ; m2 = q_filt[m] * ff_sbr_noise_table[noise]
    mulps      m2, m4 ; m2 = q_filt[m] * ff_sbr_noise_table[noise]
    mova       m3, [s_mq + count]
    ; TODO: replace by a vpermd in AVX2
    punpckhdq  m4, m3, m3
    punpckldq  m3, m3
    pcmpeqd    m6, m3, m5 ; m6 == 0
    pcmpeqd    m7, m4, m5 ; m7 == 0
    mulps      m3, m0 ; s_m[m] * phi_sign
    mulps      m4, m0 ; s_m[m] * phi_sign
    pand       m1, m6
    pand       m2, m7
    movu       m6, [Yq + 2*count]
    movu       m7, [Yq + 2*count + mmsize]
    addps      m3, m1
    addps      m4, m2
    addps      m6, m3
    addps      m7, m4
    movu    [Yq + 2*count], m6
    movu    [Yq + 2*count + mmsize], m7
    add    count, mmsize
    jl      .loop
    RET

INIT_XMM sse
cglobal sbr_qmf_deint_neg, 2,4,4,v,src,vrev,c
%define COUNT  32*4
%define OFFSET 32*4
    mov        cq, -COUNT
    lea     vrevq, [vq + OFFSET + COUNT]
    add        vq, OFFSET-mmsize
    add      srcq, 2*COUNT
    mova       m3, [ps_neg]
.loop:
    mova       m0, [srcq + 2*cq + 0*mmsize]
    mova       m1, [srcq + 2*cq + 1*mmsize]
    shufps     m2, m0, m1, q2020
    shufps     m1, m0, q1313
    xorps      m2, m3
    mova     [vq], m1
    mova  [vrevq + cq], m2
    sub        vq, mmsize
    add        cq, mmsize
    jl      .loop
    REP_RET
Commit	Line	Data
2ba45a60 DM	1	;******************************************************************************
	2	;* AAC Spectral Band Replication decoding functions
	3	;* Copyright (C) 2012 Christophe Gisquet <christophe.gisquet@gmail.com>
	4	;*
	5	;* This file is part of FFmpeg.
	6	;*
	7	;* FFmpeg is free software; you can redistribute it and/or
	8	;* modify it under the terms of the GNU Lesser General Public
	9	;* License as published by the Free Software Foundation; either
	10	;* version 2.1 of the License, or (at your option) any later version.
	11	;*
	12	;* FFmpeg is distributed in the hope that it will be useful,
	13	;* but WITHOUT ANY WARRANTY; without even the implied warranty of
	14	;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GNU
	15	;* Lesser General Public License for more details.
	16	;*
	17	;* You should have received a copy of the GNU Lesser General Public
	18	;* License along with FFmpeg; if not, write to the Free Software
	19	;* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
	20	;******************************************************************************
	21
	22	%include "libavutil/x86/x86util.asm"
	23
	24	SECTION_RODATA
	25	; mask equivalent for multiply by -1.0 1.0
	26	ps_mask times 2 dd 1<<31, 0
	27	ps_mask2 times 2 dd 0, 1<<31
	28	ps_noise0 times 2 dd 1.0, 0.0,
	29	ps_noise2 times 2 dd -1.0, 0.0
	30	ps_noise13 dd 0.0, 1.0, 0.0, -1.0
	31	dd 0.0, -1.0, 0.0, 1.0
	32	dd 0.0, 1.0, 0.0, -1.0
	33	cextern sbr_noise_table
	34	cextern ps_neg
	35
	36	SECTION_TEXT
	37
	38	INIT_XMM sse
	39	cglobal sbr_sum_square, 2, 3, 6
	40	mov r2, r1
	41	xorps m0, m0
	42	xorps m1, m1
	43	sar r2, 3
	44	jz .prepare
	45	.loop:
	46	movu m2, [r0 + 0]
	47	movu m3, [r0 + 16]
	48	movu m4, [r0 + 32]
	49	movu m5, [r0 + 48]
	50	mulps m2, m2
	51	mulps m3, m3
	52	mulps m4, m4
	53	mulps m5, m5
	54	addps m0, m2
	55	addps m1, m3
	56	addps m0, m4
	57	addps m1, m5
	58	add r0, 64
	59	dec r2
	60	jnz .loop
	61	.prepare:
	62	and r1, 7
	63	sar r1, 1
	64	jz .end
65	; len is a multiple of 2, thus there are at least 4 elements to process
66	.endloop:
67	movu m2, [r0]
68	add r0, 16
69	mulps m2, m2
70	dec r1
71	addps m0, m2
72	jnz .endloop
73	.end:
74	addps m0, m1
75	movhlps m2, m0
76	addps m0, m2
77	movss m1, m0
78	shufps m0, m0, 1
79	addss m0, m1
80	%if ARCH_X86_64 == 0
81	movss r0m, m0
82	fld dword r0m
83	%endif
84	RET
85
86	%define STEP 4042
87	cglobal sbr_hf_g_filt, 5, 6, 5
88	lea r1, [r1 + 8*r4] ; offset by ixh elements into X_high
89	mov r5, r3
90	and r3, 0xFC
91	lea r2, [r2 + r3*4]
92	lea r0, [r0 + r3*8]
93	neg r3
94	jz .loop1
95	.loop4:
96	movlps m0, [r2 + 4*r3 + 0]
97	movlps m1, [r2 + 4*r3 + 8]
98	movlps m2, [r1 + 0*STEP]
99	movlps m3, [r1 + 2*STEP]
100	movhps m2, [r1 + 1*STEP]
101	movhps m3, [r1 + 3*STEP]
102	unpcklps m0, m0
103	unpcklps m1, m1
104	mulps m0, m2
105	mulps m1, m3
106	movu [r0 + 8*r3 + 0], m0
107	movu [r0 + 8*r3 + 16], m1
108	add r1, 4*STEP
109	add r3, 4
110	jnz .loop4
111	and r5, 3 ; number of single element loops
112	jz .end
113	.loop1: ; element 0 and 1 can be computed at the same time
114	movss m0, [r2]
115	movlps m2, [r1]
116	unpcklps m0, m0
117	mulps m2, m0
118	movlps [r0], m2
119	add r0, 8
120	add r2, 4
121	add r1, STEP
122	dec r5
123	jnz .loop1
124	.end:
125	RET
126
127	; void ff_sbr_hf_gen_sse(float (X_high)[2], const float (X_low)[2],
128	; const float alpha0[2], const float alpha1[2],
129	; float bw, int start, int end)
130	;
131	cglobal sbr_hf_gen, 4,4,8, X_high, X_low, alpha0, alpha1, BW, S, E
132	; load alpha factors
133	%define bw m0
134	%if ARCH_X86_64 == 0 \|\| WIN64
135	movss bw, BWm
136	%endif
137	movlps m2, [alpha1q]
138	movlps m1, [alpha0q]
139	shufps bw, bw, 0
140	mulps m2, bw ; (a1[0] a1[1])*bw
141	mulps m1, bw ; (a0[0] a0[1])*bw = (a2 a3)
142	mulps m2, bw ; (a1[0] a1[1])bwbw = (a0 a1)
143	mova m3, m1
144	mova m4, m2
145
146	; Set pointers
147	%if ARCH_X86_64 == 0 \|\| WIN64
148	; start and end 6th and 7th args on stack
149	mov r2d, Sm
150	mov r3d, Em
151	%define start r2q
152	%define end r3q
153	%else
154	; BW does not actually occupy a register, so shift by 1
155	%define start BWq
156	%define end Sq
157	%endif
158	sub start, end ; neg num of loops
159	lea X_highq, [X_highq + end24]
160	lea X_lowq, [X_lowq + end24 - 224]
161	shl start, 3 ; offset from num loops
162
163	mova m0, [X_lowq + start]
164	shufps m3, m3, q1111
165	shufps m4, m4, q1111
166	xorps m3, [ps_mask]
167	shufps m1, m1, q0000
168	shufps m2, m2, q0000
169	xorps m4, [ps_mask]
170	.loop2:
171	movu m7, [X_lowq + start + 8] ; BbCc
172	mova m6, m0
173	mova m5, m7
174	shufps m0, m0, q2301 ; aAbB
175	shufps m7, m7, q2301 ; bBcC
176	mulps m0, m4
177	mulps m7, m3
178	mulps m6, m2
179	mulps m5, m1
180	addps m7, m0
181	mova m0, [X_lowq + start +16] ; CcDd
182	addps m7, m0
183	addps m6, m5
184	addps m7, m6
185	mova [X_highq + start], m7
186	add start, 16
187	jnz .loop2
188	RET
189
190	cglobal sbr_sum64x5, 1,2,4,z
191	lea r1q, [zq+ 256]
192	.loop:
193	mova m0, [zq+ 0]
194	mova m2, [zq+ 16]
195	mova m1, [zq+ 256]
196	mova m3, [zq+ 272]
197	addps m0, [zq+ 512]
198	addps m2, [zq+ 528]
199	addps m1, [zq+ 768]
200	addps m3, [zq+ 784]
201	addps m0, [zq+1024]
202	addps m2, [zq+1040]
203	addps m0, m1
204	addps m2, m3
205	mova [zq], m0
206	mova [zq+16], m2
207	add zq, 32
208	cmp zq, r1q
209	jne .loop
210	REP_RET
211
212	INIT_XMM sse
213	cglobal sbr_qmf_post_shuffle, 2,3,4,W,z
214	lea r2q, [zq + (64-4)*4]
215	mova m3, [ps_neg]
216	.loop:
217	mova m1, [zq]
218	xorps m0, m3, [r2q]
219	shufps m0, m0, m0, q0123
220	unpcklps m2, m0, m1
221	unpckhps m0, m0, m1
222	mova [Wq + 0], m2
223	mova [Wq + 16], m0
224	add Wq, 32
225	sub r2q, 16
226	add zq, 16
227	cmp zq, r2q
228	jl .loop
229	REP_RET
230
231	INIT_XMM sse
232	cglobal sbr_neg_odd_64, 1,2,4,z
233	lea r1q, [zq+256]
234	.loop:
235	mova m0, [zq+ 0]
236	mova m1, [zq+16]
237	mova m2, [zq+32]
238	mova m3, [zq+48]
239	xorps m0, [ps_mask2]
240	xorps m1, [ps_mask2]
241	xorps m2, [ps_mask2]
242	xorps m3, [ps_mask2]
243	mova [zq+ 0], m0
244	mova [zq+16], m1
245	mova [zq+32], m2
246	mova [zq+48], m3
247	add zq, 64
248	cmp zq, r1q
249	jne .loop
250	REP_RET
251
252	; void ff_sbr_qmf_deint_bfly_sse2(float v, const float src0, const float *src1)
253	%macro SBR_QMF_DEINT_BFLY 0
254	cglobal sbr_qmf_deint_bfly, 3,5,8, v,src0,src1,vrev,c
255	mov cq, 644-2mmsize
256	lea vrevq, [vq + 64*4]
257	.loop:
258	mova m0, [src0q+cq]
259	mova m1, [src1q]
260	mova m4, [src0q+cq+mmsize]
261	mova m5, [src1q+mmsize]
262	%if cpuflag(sse2)
263	pshufd m2, m0, q0123
264	pshufd m3, m1, q0123
265	pshufd m6, m4, q0123
266	pshufd m7, m5, q0123
267	%else
268	shufps m2, m0, m0, q0123
269	shufps m3, m1, m1, q0123
270	shufps m6, m4, m4, q0123
271	shufps m7, m5, m5, q0123
272	%endif
273	addps m5, m2
274	subps m0, m7
275	addps m1, m6
276	subps m4, m3
277	mova [vrevq], m1
278	mova [vrevq+mmsize], m5
279	mova [vq+cq], m0
280	mova [vq+cq+mmsize], m4
281	add src1q, 2*mmsize
282	add vrevq, 2*mmsize
283	sub cq, 2*mmsize
284	jge .loop
285	REP_RET
286	%endmacro
287
288	INIT_XMM sse
289	SBR_QMF_DEINT_BFLY
290
291	INIT_XMM sse2
292	SBR_QMF_DEINT_BFLY
293
294	INIT_XMM sse2
295	cglobal sbr_qmf_pre_shuffle, 1,4,6,z
296	%define OFFSET (324-2mmsize)
297	mov r3q, OFFSET
298	lea r1q, [zq + (32+1)*4]
299	lea r2q, [zq + 64*4]
300	mova m5, [ps_neg]
301	.loop:
302	movu m0, [r1q]
303	movu m2, [r1q + mmsize]
304	movu m1, [zq + r3q + 4 + mmsize]
305	movu m3, [zq + r3q + 4]
306
307	pxor m2, m5
308	pxor m0, m5
309	pshufd m2, m2, q0123
310	pshufd m0, m0, q0123
311	SBUTTERFLY dq, 2, 3, 4
312	SBUTTERFLY dq, 0, 1, 4
313	mova [r2q + 2r3q + 0mmsize], m2
314	mova [r2q + 2r3q + 1mmsize], m3
315	mova [r2q + 2r3q + 2mmsize], m0
316	mova [r2q + 2r3q + 3mmsize], m1
317	add r1q, 2*mmsize
318	sub r3q, 2*mmsize
319	jge .loop
320	movq m2, [zq]
321	movq [r2q], m2
322	REP_RET
323
324	%ifdef PIC
325	%define NREGS 1
326	%if UNIX64
327	%define NOISE_TABLE r6q ; r5q is m_max
328	%else
329	%define NOISE_TABLE r5q
330	%endif
331	%else
332	%define NREGS 0
333	%define NOISE_TABLE sbr_noise_table
334	%endif
335
336	%macro LOAD_NST 1
337	%ifdef PIC
338	lea NOISE_TABLE, [%1]
339	mova m0, [kxq + NOISE_TABLE]
340	%else
341	mova m0, [kxq + %1]
342	%endif
343	%endmacro
344
345	INIT_XMM sse2
346	; sbr_hf_apply_noise_0(float (Y)[2], const float s_m,
347	; const float *q_filt, int noise,
348	; int kx, int m_max)
349	cglobal sbr_hf_apply_noise_0, 5,5+NREGS+UNIX64,8, Y,s_m,q_filt,noise,kx,m_max
350	mova m0, [ps_noise0]
351	jmp apply_noise_main
352
353	; sbr_hf_apply_noise_1(float (Y)[2], const float s_m,
354	; const float *q_filt, int noise,
355	; int kx, int m_max)
356	cglobal sbr_hf_apply_noise_1, 5,5+NREGS+UNIX64,8, Y,s_m,q_filt,noise,kx,m_max
357	and kxq, 1
358	shl kxq, 4
359	LOAD_NST ps_noise13
360	jmp apply_noise_main
361
362	; sbr_hf_apply_noise_2(float (Y)[2], const float s_m,
363	; const float *q_filt, int noise,
364	; int kx, int m_max)
365	cglobal sbr_hf_apply_noise_2, 5,5+NREGS+UNIX64,8, Y,s_m,q_filt,noise,kx,m_max
366	mova m0, [ps_noise2]
367	jmp apply_noise_main
368
369	; sbr_hf_apply_noise_3(float (Y)[2], const float s_m,
370	; const float *q_filt, int noise,
371	; int kx, int m_max)
372	cglobal sbr_hf_apply_noise_3, 5,5+NREGS+UNIX64,8, Y,s_m,q_filt,noise,kx,m_max
373	and kxq, 1
374	shl kxq, 4
375	LOAD_NST ps_noise13+16
376
377	apply_noise_main:
378	%if ARCH_X86_64 == 0 \|\| WIN64
379	mov kxd, m_maxm
380	%define count kxq
381	%else
382	%define count m_maxq
383	%endif
384	dec noiseq
385	shl count, 2
386	%ifdef PIC
387	lea NOISE_TABLE, [sbr_noise_table]
388	%endif
389	lea Yq, [Yq + 2*count]
390	add s_mq, count
391	add q_filtq, count
392	shl noiseq, 3
393	pxor m5, m5
394	neg count
395	.loop:
396	mova m1, [q_filtq + count]
397	movu m3, [noiseq + NOISE_TABLE + 1*mmsize]
398	movu m4, [noiseq + NOISE_TABLE + 2*mmsize]
399	add noiseq, 2*mmsize
400	and noiseq, 0x1ff<<3
401	punpckhdq m2, m1, m1
402	punpckldq m1, m1
403	mulps m1, m3 ; m2 = q_filt[m] * ff_sbr_noise_table[noise]
404	mulps m2, m4 ; m2 = q_filt[m] * ff_sbr_noise_table[noise]
405	mova m3, [s_mq + count]
406	; TODO: replace by a vpermd in AVX2
407	punpckhdq m4, m3, m3
408	punpckldq m3, m3
409	pcmpeqd m6, m3, m5 ; m6 == 0
410	pcmpeqd m7, m4, m5 ; m7 == 0
411	mulps m3, m0 ; s_m[m] * phi_sign
412	mulps m4, m0 ; s_m[m] * phi_sign
413	pand m1, m6
414	pand m2, m7
415	movu m6, [Yq + 2*count]
416	movu m7, [Yq + 2*count + mmsize]
417	addps m3, m1
418	addps m4, m2
419	addps m6, m3
420	addps m7, m4
421	movu [Yq + 2*count], m6
422	movu [Yq + 2*count + mmsize], m7
423	add count, mmsize
424	jl .loop
425	RET
426
427	INIT_XMM sse
428	cglobal sbr_qmf_deint_neg, 2,4,4,v,src,vrev,c
429	%define COUNT 32*4
430	%define OFFSET 32*4
431	mov cq, -COUNT
432	lea vrevq, [vq + OFFSET + COUNT]
433	add vq, OFFSET-mmsize
434	add srcq, 2*COUNT
435	mova m3, [ps_neg]
436	.loop:
437	mova m0, [srcq + 2cq + 0mmsize]
438	mova m1, [srcq + 2cq + 1mmsize]
439	shufps m2, m0, m1, q2020
440	shufps m1, m0, q1313
441	xorps m2, m3
442	mova [vq], m1
443	mova [vrevq + cq], m2
444	sub vq, mmsize
445	add cq, mmsize
446	jl .loop
447	REP_RET