[deb_ffmpeg.git] / ffmpeg / libavcodec / x86 / dwt_yasm.asm

;******************************************************************************
;* MMX optimized discrete wavelet trasnform
;* Copyright (c) 2010 David Conrad
;*
;* This file is part of FFmpeg.
;*
;* FFmpeg is free software; you can redistribute it and/or
;* modify it under the terms of the GNU Lesser General Public
;* License as published by the Free Software Foundation; either
;* version 2.1 of the License, or (at your option) any later version.
;*
;* FFmpeg is distributed in the hope that it will be useful,
;* but WITHOUT ANY WARRANTY; without even the implied warranty of
;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
;* Lesser General Public License for more details.
;*
;* You should have received a copy of the GNU Lesser General Public
;* License along with FFmpeg; if not, write to the Free Software
;* 51, Inc., Foundation Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
;******************************************************************************

%include "libavutil/x86/x86util.asm"

SECTION_RODATA
pw_1991: times 4 dw 9,-1

cextern pw_1
cextern pw_2
cextern pw_8
cextern pw_16

section .text

; %1 -= (%2 + %3 + 2)>>2     %4 is pw_2
%macro COMPOSE_53iL0 4
    paddw   %2, %3
    paddw   %2, %4
    psraw   %2, 2
    psubw   %1, %2
%endm

; m1 = %1 + (-m0 + 9*m1 + 9*%2 -%3 + 8)>>4
; if %4 is supplied, %1 is loaded unaligned from there
; m2: clobbered  m3: pw_8  m4: pw_1991
%macro COMPOSE_DD97iH0 3-4
    paddw   m0, %3
    paddw   m1, %2
    psubw   m0, m3
    mova    m2, m1
    punpcklwd m1, m0
    punpckhwd m2, m0
    pmaddwd m1, m4
    pmaddwd m2, m4
%if %0 > 3
    movu    %1, %4
%endif
    psrad   m1, 4
    psrad   m2, 4
    packssdw m1, m2
    paddw   m1, %1
%endm

%macro COMPOSE_VERTICAL 1
; void vertical_compose53iL0(IDWTELEM *b0, IDWTELEM *b1, IDWTELEM *b2,
;                                  int width)
cglobal vertical_compose53iL0_%1, 4,4,1, b0, b1, b2, width
    mova    m2, [pw_2]
%if ARCH_X86_64
    mov     widthd, widthd
%endif
.loop:
    sub     widthq, mmsize/2
    mova    m1, [b0q+2*widthq]
    mova    m0, [b1q+2*widthq]
    COMPOSE_53iL0 m0, m1, [b2q+2*widthq], m2
    mova    [b1q+2*widthq], m0
    jg      .loop
    REP_RET

; void vertical_compose_dirac53iH0(IDWTELEM *b0, IDWTELEM *b1, IDWTELEM *b2,
;                                  int width)
cglobal vertical_compose_dirac53iH0_%1, 4,4,1, b0, b1, b2, width
    mova    m1, [pw_1]
%if ARCH_X86_64
    mov     widthd, widthd
%endif
.loop:
    sub     widthq, mmsize/2
    mova    m0, [b0q+2*widthq]
    paddw   m0, [b2q+2*widthq]
    paddw   m0, m1
    psraw   m0, 1
    paddw   m0, [b1q+2*widthq]
    mova    [b1q+2*widthq], m0
    jg      .loop
    REP_RET

; void vertical_compose_dd97iH0(IDWTELEM *b0, IDWTELEM *b1, IDWTELEM *b2,
;                               IDWTELEM *b3, IDWTELEM *b4, int width)
cglobal vertical_compose_dd97iH0_%1, 6,6,5, b0, b1, b2, b3, b4, width
    mova    m3, [pw_8]
    mova    m4, [pw_1991]
%if ARCH_X86_64
    mov     widthd, widthd
%endif
.loop:
    sub     widthq, mmsize/2
    mova    m0, [b0q+2*widthq]
    mova    m1, [b1q+2*widthq]
    COMPOSE_DD97iH0 [b2q+2*widthq], [b3q+2*widthq], [b4q+2*widthq]
    mova    [b2q+2*widthq], m1
    jg      .loop
    REP_RET

; void vertical_compose_dd137iL0(IDWTELEM *b0, IDWTELEM *b1, IDWTELEM *b2,
;                                IDWTELEM *b3, IDWTELEM *b4, int width)
cglobal vertical_compose_dd137iL0_%1, 6,6,6, b0, b1, b2, b3, b4, width
    mova    m3, [pw_16]
    mova    m4, [pw_1991]
%if ARCH_X86_64
    mov     widthd, widthd
%endif
.loop:
    sub     widthq, mmsize/2
    mova    m0, [b0q+2*widthq]
    mova    m1, [b1q+2*widthq]
    mova    m5, [b2q+2*widthq]
    paddw   m0, [b4q+2*widthq]
    paddw   m1, [b3q+2*widthq]
    psubw   m0, m3
    mova    m2, m1
    punpcklwd m1, m0
    punpckhwd m2, m0
    pmaddwd m1, m4
    pmaddwd m2, m4
    psrad   m1, 5
    psrad   m2, 5
    packssdw m1, m2
    psubw   m5, m1
    mova    [b2q+2*widthq], m5
    jg      .loop
    REP_RET

; void vertical_compose_haar(IDWTELEM *b0, IDWTELEM *b1, int width)
cglobal vertical_compose_haar_%1, 3,4,3, b0, b1, width
    mova    m3, [pw_1]
%if ARCH_X86_64
    mov     widthd, widthd
%endif
.loop:
    sub     widthq, mmsize/2
    mova    m1, [b1q+2*widthq]
    mova    m0, [b0q+2*widthq]
    mova    m2, m1
    paddw   m1, m3
    psraw   m1, 1
    psubw   m0, m1
    mova    [b0q+2*widthq], m0
    paddw   m2, m0
    mova    [b1q+2*widthq], m2
    jg      .loop
    REP_RET
%endmacro

; extend the left and right edges of the tmp array by %1 and %2 respectively
%macro EDGE_EXTENSION 3
    mov     %3, [tmpq]
%assign %%i 1
%rep %1
    mov     [tmpq-2*%%i], %3
    %assign %%i %%i+1
%endrep
    mov     %3, [tmpq+2*w2q-2]
%assign %%i 0
%rep %2
    mov     [tmpq+2*w2q+2*%%i], %3
    %assign %%i %%i+1
%endrep
%endmacro


%macro HAAR_HORIZONTAL 2
; void horizontal_compose_haari(IDWTELEM *b, IDWTELEM *tmp, int width)
cglobal horizontal_compose_haar%2i_%1, 3,6,4, b, tmp, w, x, w2, b_w2
    mov    w2d, wd
    xor     xq, xq
    shr    w2d, 1
    lea  b_w2q, [bq+wq]
    mova    m3, [pw_1]
.lowpass_loop:
    movu    m1, [b_w2q + 2*xq]
    mova    m0, [bq    + 2*xq]
    paddw   m1, m3
    psraw   m1, 1
    psubw   m0, m1
    mova    [tmpq + 2*xq], m0
    add     xq, mmsize/2
    cmp     xq, w2q
    jl      .lowpass_loop

    xor     xq, xq
    and    w2q, ~(mmsize/2 - 1)
    cmp    w2q, mmsize/2
    jl      .end

.highpass_loop:
    movu    m1, [b_w2q + 2*xq]
    mova    m0, [tmpq  + 2*xq]
    paddw   m1, m0

    ; shift and interleave
%if %2 == 1
    paddw   m0, m3
    paddw   m1, m3
    psraw   m0, 1
    psraw   m1, 1
%endif
    mova    m2, m0
    punpcklwd m0, m1
    punpckhwd m2, m1
    mova    [bq+4*xq], m0
    mova    [bq+4*xq+mmsize], m2

    add     xq, mmsize/2
    cmp     xq, w2q
    jl      .highpass_loop
.end:
    REP_RET
%endmacro


INIT_XMM
; void horizontal_compose_dd97i(IDWTELEM *b, IDWTELEM *tmp, int width)
cglobal horizontal_compose_dd97i_ssse3, 3,6,8, b, tmp, w, x, w2, b_w2
    mov    w2d, wd
    xor     xd, xd
    shr    w2d, 1
    lea  b_w2q, [bq+wq]
    movu    m4, [bq+wq]
    mova    m7, [pw_2]
    pslldq  m4, 14
.lowpass_loop:
    movu    m1, [b_w2q + 2*xq]
    mova    m0, [bq    + 2*xq]
    mova    m2, m1
    palignr m1, m4, 14
    mova    m4, m2
    COMPOSE_53iL0 m0, m1, m2, m7
    mova    [tmpq + 2*xq], m0
    add     xd, mmsize/2
    cmp     xd, w2d
    jl      .lowpass_loop

    EDGE_EXTENSION 1, 2, xw
    ; leave the last up to 7 (sse) or 3 (mmx) values for C
    xor     xd, xd
    and    w2d, ~(mmsize/2 - 1)
    cmp    w2d, mmsize/2
    jl      .end

    mova    m7, [tmpq-mmsize]
    mova    m0, [tmpq]
    mova    m5, [pw_1]
    mova    m3, [pw_8]
    mova    m4, [pw_1991]
.highpass_loop:
    mova    m6, m0
    palignr m0, m7, 14
    mova    m7, [tmpq + 2*xq + 16]
    mova    m1, m7
    mova    m2, m7
    palignr m1, m6, 2
    palignr m2, m6, 4
    COMPOSE_DD97iH0 m0, m6, m2, [b_w2q + 2*xq]
    mova    m0, m7
    mova    m7, m6

    ; shift and interleave
    paddw   m6, m5
    paddw   m1, m5
    psraw   m6, 1
    psraw   m1, 1
    mova    m2, m6
    punpcklwd m6, m1
    punpckhwd m2, m1
    mova    [bq+4*xq], m6
    mova    [bq+4*xq+mmsize], m2

    add     xd, mmsize/2
    cmp     xd, w2d
    jl      .highpass_loop
.end:
    REP_RET


%if ARCH_X86_64 == 0
INIT_MMX
COMPOSE_VERTICAL mmx
HAAR_HORIZONTAL mmx, 0
HAAR_HORIZONTAL mmx, 1
%endif

;;INIT_XMM
INIT_XMM
COMPOSE_VERTICAL sse2
HAAR_HORIZONTAL sse2, 0
HAAR_HORIZONTAL sse2, 1
Commit	Line	Data
	1	;******************************************************************************
	2	;* MMX optimized discrete wavelet trasnform
	3	;* Copyright (c) 2010 David Conrad
	4	;*
	5	;* This file is part of FFmpeg.
	6	;*
	7	;* FFmpeg is free software; you can redistribute it and/or
	8	;* modify it under the terms of the GNU Lesser General Public
	9	;* License as published by the Free Software Foundation; either
	10	;* version 2.1 of the License, or (at your option) any later version.
	11	;*
	12	;* FFmpeg is distributed in the hope that it will be useful,
	13	;* but WITHOUT ANY WARRANTY; without even the implied warranty of
	14	;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GNU
	15	;* Lesser General Public License for more details.
	16	;*
	17	;* You should have received a copy of the GNU Lesser General Public
	18	;* License along with FFmpeg; if not, write to the Free Software
	19	;* 51, Inc., Foundation Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
	20	;******************************************************************************
	21
	22	%include "libavutil/x86/x86util.asm"
	23
	24	SECTION_RODATA
	25	pw_1991: times 4 dw 9,-1
	26
	27	cextern pw_1
	28	cextern pw_2
	29	cextern pw_8
	30	cextern pw_16
	31
	32	section .text
	33
	34	; %1 -= (%2 + %3 + 2)>>2 %4 is pw_2
	35	%macro COMPOSE_53iL0 4
	36	paddw %2, %3
	37	paddw %2, %4
	38	psraw %2, 2
	39	psubw %1, %2
	40	%endm
	41
	42	; m1 = %1 + (-m0 + 9m1 + 9%2 -%3 + 8)>>4
	43	; if %4 is supplied, %1 is loaded unaligned from there
	44	; m2: clobbered m3: pw_8 m4: pw_1991
	45	%macro COMPOSE_DD97iH0 3-4
	46	paddw m0, %3
	47	paddw m1, %2
	48	psubw m0, m3
	49	mova m2, m1
	50	punpcklwd m1, m0
	51	punpckhwd m2, m0
	52	pmaddwd m1, m4
	53	pmaddwd m2, m4
	54	%if %0 > 3
	55	movu %1, %4
	56	%endif
	57	psrad m1, 4
	58	psrad m2, 4
	59	packssdw m1, m2
	60	paddw m1, %1
	61	%endm
	62
	63	%macro COMPOSE_VERTICAL 1
	64	; void vertical_compose53iL0(IDWTELEM b0, IDWTELEM b1, IDWTELEM *b2,
	65	; int width)
	66	cglobal vertical_compose53iL0_%1, 4,4,1, b0, b1, b2, width
	67	mova m2, [pw_2]
	68	%if ARCH_X86_64
	69	mov widthd, widthd
	70	%endif
	71	.loop:
	72	sub widthq, mmsize/2
	73	mova m1, [b0q+2*widthq]
	74	mova m0, [b1q+2*widthq]
	75	COMPOSE_53iL0 m0, m1, [b2q+2*widthq], m2
	76	mova [b1q+2*widthq], m0
	77	jg .loop
	78	REP_RET
	79
	80	; void vertical_compose_dirac53iH0(IDWTELEM b0, IDWTELEM b1, IDWTELEM *b2,
	81	; int width)
	82	cglobal vertical_compose_dirac53iH0_%1, 4,4,1, b0, b1, b2, width
	83	mova m1, [pw_1]
	84	%if ARCH_X86_64
	85	mov widthd, widthd
	86	%endif
	87	.loop:
	88	sub widthq, mmsize/2
	89	mova m0, [b0q+2*widthq]
	90	paddw m0, [b2q+2*widthq]
	91	paddw m0, m1
	92	psraw m0, 1
	93	paddw m0, [b1q+2*widthq]
	94	mova [b1q+2*widthq], m0
	95	jg .loop
	96	REP_RET
	97
	98	; void vertical_compose_dd97iH0(IDWTELEM b0, IDWTELEM b1, IDWTELEM *b2,
	99	; IDWTELEM b3, IDWTELEM b4, int width)
	100	cglobal vertical_compose_dd97iH0_%1, 6,6,5, b0, b1, b2, b3, b4, width
	101	mova m3, [pw_8]
	102	mova m4, [pw_1991]
	103	%if ARCH_X86_64
	104	mov widthd, widthd
	105	%endif
	106	.loop:
	107	sub widthq, mmsize/2
	108	mova m0, [b0q+2*widthq]
	109	mova m1, [b1q+2*widthq]
	110	COMPOSE_DD97iH0 [b2q+2widthq], [b3q+2widthq], [b4q+2*widthq]
	111	mova [b2q+2*widthq], m1
	112	jg .loop
	113	REP_RET
	114
	115	; void vertical_compose_dd137iL0(IDWTELEM b0, IDWTELEM b1, IDWTELEM *b2,
	116	; IDWTELEM b3, IDWTELEM b4, int width)
	117	cglobal vertical_compose_dd137iL0_%1, 6,6,6, b0, b1, b2, b3, b4, width
	118	mova m3, [pw_16]
	119	mova m4, [pw_1991]
	120	%if ARCH_X86_64
	121	mov widthd, widthd
	122	%endif
	123	.loop:
	124	sub widthq, mmsize/2
	125	mova m0, [b0q+2*widthq]
	126	mova m1, [b1q+2*widthq]
	127	mova m5, [b2q+2*widthq]
	128	paddw m0, [b4q+2*widthq]
	129	paddw m1, [b3q+2*widthq]
	130	psubw m0, m3
	131	mova m2, m1
	132	punpcklwd m1, m0
	133	punpckhwd m2, m0
	134	pmaddwd m1, m4
	135	pmaddwd m2, m4
	136	psrad m1, 5
	137	psrad m2, 5
	138	packssdw m1, m2
	139	psubw m5, m1
	140	mova [b2q+2*widthq], m5
	141	jg .loop
	142	REP_RET
	143
	144	; void vertical_compose_haar(IDWTELEM b0, IDWTELEM b1, int width)
	145	cglobal vertical_compose_haar_%1, 3,4,3, b0, b1, width
	146	mova m3, [pw_1]
	147	%if ARCH_X86_64
	148	mov widthd, widthd
	149	%endif
	150	.loop:
	151	sub widthq, mmsize/2
	152	mova m1, [b1q+2*widthq]
	153	mova m0, [b0q+2*widthq]
	154	mova m2, m1
	155	paddw m1, m3
	156	psraw m1, 1
	157	psubw m0, m1
	158	mova [b0q+2*widthq], m0
	159	paddw m2, m0
	160	mova [b1q+2*widthq], m2
	161	jg .loop
	162	REP_RET
	163	%endmacro
	164
	165	; extend the left and right edges of the tmp array by %1 and %2 respectively
	166	%macro EDGE_EXTENSION 3
	167	mov %3, [tmpq]
	168	%assign %%i 1
	169	%rep %1
	170	mov [tmpq-2*%%i], %3
	171	%assign %%i %%i+1
	172	%endrep
	173	mov %3, [tmpq+2*w2q-2]
	174	%assign %%i 0
	175	%rep %2
	176	mov [tmpq+2w2q+2%%i], %3
	177	%assign %%i %%i+1
	178	%endrep
	179	%endmacro
	180
	181
	182	%macro HAAR_HORIZONTAL 2
	183	; void horizontal_compose_haari(IDWTELEM b, IDWTELEM tmp, int width)
	184	cglobal horizontal_compose_haar%2i_%1, 3,6,4, b, tmp, w, x, w2, b_w2
	185	mov w2d, wd
	186	xor xq, xq
	187	shr w2d, 1
	188	lea b_w2q, [bq+wq]
	189	mova m3, [pw_1]
	190	.lowpass_loop:
	191	movu m1, [b_w2q + 2*xq]
	192	mova m0, [bq + 2*xq]
	193	paddw m1, m3
	194	psraw m1, 1
	195	psubw m0, m1
	196	mova [tmpq + 2*xq], m0
	197	add xq, mmsize/2
	198	cmp xq, w2q
	199	jl .lowpass_loop
	200
	201	xor xq, xq
	202	and w2q, ~(mmsize/2 - 1)
	203	cmp w2q, mmsize/2
	204	jl .end
	205
	206	.highpass_loop:
	207	movu m1, [b_w2q + 2*xq]
	208	mova m0, [tmpq + 2*xq]
	209	paddw m1, m0
	210
	211	; shift and interleave
	212	%if %2 == 1
	213	paddw m0, m3
	214	paddw m1, m3
	215	psraw m0, 1
	216	psraw m1, 1
	217	%endif
	218	mova m2, m0
	219	punpcklwd m0, m1
	220	punpckhwd m2, m1
	221	mova [bq+4*xq], m0
	222	mova [bq+4*xq+mmsize], m2
	223
	224	add xq, mmsize/2
	225	cmp xq, w2q
	226	jl .highpass_loop
	227	.end:
	228	REP_RET
	229	%endmacro
	230
	231
	232	INIT_XMM
	233	; void horizontal_compose_dd97i(IDWTELEM b, IDWTELEM tmp, int width)
	234	cglobal horizontal_compose_dd97i_ssse3, 3,6,8, b, tmp, w, x, w2, b_w2
	235	mov w2d, wd
	236	xor xd, xd
	237	shr w2d, 1
	238	lea b_w2q, [bq+wq]
	239	movu m4, [bq+wq]
	240	mova m7, [pw_2]
	241	pslldq m4, 14
	242	.lowpass_loop:
	243	movu m1, [b_w2q + 2*xq]
	244	mova m0, [bq + 2*xq]
	245	mova m2, m1
	246	palignr m1, m4, 14
	247	mova m4, m2
	248	COMPOSE_53iL0 m0, m1, m2, m7
	249	mova [tmpq + 2*xq], m0
	250	add xd, mmsize/2
	251	cmp xd, w2d
	252	jl .lowpass_loop
	253
	254	EDGE_EXTENSION 1, 2, xw
	255	; leave the last up to 7 (sse) or 3 (mmx) values for C
	256	xor xd, xd
	257	and w2d, ~(mmsize/2 - 1)
	258	cmp w2d, mmsize/2
	259	jl .end
	260
	261	mova m7, [tmpq-mmsize]
	262	mova m0, [tmpq]
	263	mova m5, [pw_1]
	264	mova m3, [pw_8]
	265	mova m4, [pw_1991]
	266	.highpass_loop:
	267	mova m6, m0
	268	palignr m0, m7, 14
	269	mova m7, [tmpq + 2*xq + 16]
	270	mova m1, m7
	271	mova m2, m7
	272	palignr m1, m6, 2
	273	palignr m2, m6, 4
	274	COMPOSE_DD97iH0 m0, m6, m2, [b_w2q + 2*xq]
	275	mova m0, m7
	276	mova m7, m6
	277
	278	; shift and interleave
	279	paddw m6, m5
	280	paddw m1, m5
	281	psraw m6, 1
	282	psraw m1, 1
	283	mova m2, m6
	284	punpcklwd m6, m1
	285	punpckhwd m2, m1
	286	mova [bq+4*xq], m6
	287	mova [bq+4*xq+mmsize], m2
	288
	289	add xd, mmsize/2
	290	cmp xd, w2d
	291	jl .highpass_loop
	292	.end:
	293	REP_RET
	294
	295
	296	%if ARCH_X86_64 == 0
	297	INIT_MMX
	298	COMPOSE_VERTICAL mmx
	299	HAAR_HORIZONTAL mmx, 0
	300	HAAR_HORIZONTAL mmx, 1
	301	%endif
	302
	303	;;INIT_XMM
	304	INIT_XMM
	305	COMPOSE_VERTICAL sse2
	306	HAAR_HORIZONTAL sse2, 0
	307	HAAR_HORIZONTAL sse2, 1