[deb_ffmpeg.git] / ffmpeg / libavcodec / x86 / diracdsp_yasm.asm

;******************************************************************************
;* Copyright (c) 2010 David Conrad
;*
;* This file is part of FFmpeg.
;*
;* FFmpeg is free software; you can redistribute it and/or
;* modify it under the terms of the GNU Lesser General Public
;* License as published by the Free Software Foundation; either
;* version 2.1 of the License, or (at your option) any later version.
;*
;* FFmpeg is distributed in the hope that it will be useful,
;* but WITHOUT ANY WARRANTY; without even the implied warranty of
;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
;* Lesser General Public License for more details.
;*
;* You should have received a copy of the GNU Lesser General Public
;* License along with FFmpeg; if not, write to the Free Software
;* 51, Inc., Foundation Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
;******************************************************************************

%include "libavutil/x86/x86util.asm"

SECTION_RODATA
pw_7: times 8 dw 7

cextern pw_3
cextern pw_16
cextern pw_32
cextern pb_80

section .text

%macro UNPACK_ADD 6
    mov%5   %1, %3
    mov%6   m5, %4
    mova    m4, %1
    mova    %2, m5
    punpcklbw %1, m7
    punpcklbw m5, m7
    punpckhbw m4, m7
    punpckhbw %2, m7
    paddw   %1, m5
    paddw   %2, m4
%endmacro

%macro HPEL_FILTER 1
; dirac_hpel_filter_v_sse2(uint8_t *dst, uint8_t *src, int stride, int width);
cglobal dirac_hpel_filter_v_%1, 4,6,8, dst, src, stride, width, src0, stridex3
    mov     src0q, srcq
    lea     stridex3q, [3*strideq]
    sub     src0q, stridex3q
    pxor    m7, m7
.loop:
    ; 7*(src[0] + src[1])
    UNPACK_ADD m0, m1, [srcq], [srcq + strideq], a,a
    pmullw  m0, [pw_7]
    pmullw  m1, [pw_7]

    ; 3*( ... + src[-2] + src[3])
    UNPACK_ADD m2, m3, [src0q + strideq], [srcq + stridex3q], a,a
    paddw   m0, m2
    paddw   m1, m3
    pmullw  m0, [pw_3]
    pmullw  m1, [pw_3]

    ; ... - 7*(src[-1] + src[2])
    UNPACK_ADD m2, m3, [src0q + strideq*2], [srcq + strideq*2], a,a
    pmullw  m2, [pw_7]
    pmullw  m3, [pw_7]
    psubw   m0, m2
    psubw   m1, m3

    ; ... - (src[-3] + src[4])
    UNPACK_ADD m2, m3, [src0q], [srcq + strideq*4], a,a
    psubw   m0, m2
    psubw   m1, m3

    paddw   m0, [pw_16]
    paddw   m1, [pw_16]
    psraw   m0, 5
    psraw   m1, 5
    packuswb m0, m1
    mova    [dstq], m0
    add     dstq, mmsize
    add     srcq, mmsize
    add     src0q, mmsize
    sub     widthd, mmsize
    jg      .loop
    RET

; dirac_hpel_filter_h_sse2(uint8_t *dst, uint8_t *src, int width);
cglobal dirac_hpel_filter_h_%1, 3,3,8, dst, src, width
    dec     widthd
    pxor    m7, m7
    and     widthd, ~(mmsize-1)
.loop:
    ; 7*(src[0] + src[1])
    UNPACK_ADD m0, m1, [srcq + widthq], [srcq + widthq + 1], u,u
    pmullw  m0, [pw_7]
    pmullw  m1, [pw_7]

    ; 3*( ... + src[-2] + src[3])
    UNPACK_ADD m2, m3, [srcq + widthq - 2], [srcq + widthq + 3], u,u
    paddw   m0, m2
    paddw   m1, m3
    pmullw  m0, [pw_3]
    pmullw  m1, [pw_3]

    ; ... - 7*(src[-1] + src[2])
    UNPACK_ADD m2, m3, [srcq + widthq - 1], [srcq + widthq + 2], u,u
    pmullw  m2, [pw_7]
    pmullw  m3, [pw_7]
    psubw   m0, m2
    psubw   m1, m3

    ; ... - (src[-3] + src[4])
    UNPACK_ADD m2, m3, [srcq + widthq - 3], [srcq + widthq + 4], u,u
    psubw   m0, m2
    psubw   m1, m3

    paddw   m0, [pw_16]
    paddw   m1, [pw_16]
    psraw   m0, 5
    psraw   m1, 5
    packuswb m0, m1
    mova    [dstq + widthq], m0
    sub     widthd, mmsize
    jge     .loop
    RET
%endmacro

%macro PUT_RECT 1
; void put_rect_clamped(uint8_t *dst, int dst_stride, int16_t *src, int src_stride, int width, int height)
cglobal put_signed_rect_clamped_%1, 5,9,3, dst, dst_stride, src, src_stride, w, dst2, src2
    mova    m0, [pb_80]
    add     wd, (mmsize-1)
    and     wd, ~(mmsize-1)

%if ARCH_X86_64
    movsxd   dst_strideq, dst_strided
    movsxd   src_strideq, src_strided
    mov   r7d, r5m
    mov   r8d, wd
    %define wspill r8d
    %define hd r7d
%else
    mov    r4m, wd
    %define wspill r4m
    %define hd r5mp
%endif

.loopy
    lea     src2q, [srcq+src_strideq*2]
    lea     dst2q, [dstq+dst_strideq]
.loopx:
    sub      wd, mmsize
    mova     m1, [srcq +2*wq]
    mova     m2, [src2q+2*wq]
    packsswb m1, [srcq +2*wq+mmsize]
    packsswb m2, [src2q+2*wq+mmsize]
    paddb    m1, m0
    paddb    m2, m0
    mova    [dstq +wq], m1
    mova    [dst2q+wq], m2
    jg      .loopx

    lea   srcq, [srcq+src_strideq*4]
    lea   dstq, [dstq+dst_strideq*2]
    sub     hd, 2
    mov     wd, wspill
    jg      .loopy
    RET
%endm

%macro ADD_RECT 1
; void add_rect_clamped(uint8_t *dst, uint16_t *src, int stride, int16_t *idwt, int idwt_stride, int width, int height)
cglobal add_rect_clamped_%1, 7,9,3, dst, src, stride, idwt, idwt_stride, w, h
    mova    m0, [pw_32]
    add     wd, (mmsize-1)
    and     wd, ~(mmsize-1)

%if ARCH_X86_64
    movsxd   strideq, strided
    movsxd   idwt_strideq, idwt_strided
    mov   r8d, wd
    %define wspill r8d
%else
    mov    r5m, wd
    %define wspill r5m
%endif

.loop:
    sub     wd, mmsize
    movu    m1, [srcq +2*wq] ; FIXME: ensure alignment
    paddw   m1, m0
    psraw   m1, 6
    movu    m2, [srcq +2*wq+mmsize] ; FIXME: ensure alignment
    paddw   m2, m0
    psraw   m2, 6
    paddw   m1, [idwtq+2*wq]
    paddw   m2, [idwtq+2*wq+mmsize]
    packuswb m1, m2
    mova    [dstq +wq], m1
    jg      .loop

    lea   srcq, [srcq + 2*strideq]
    add   dstq, strideq
    lea  idwtq, [idwtq+ 2*idwt_strideq]
    sub     hd, 1
    mov     wd, wspill
    jg      .loop
    RET
%endm

%macro ADD_OBMC 2
; void add_obmc(uint16_t *dst, uint8_t *src, int stride, uint8_t *obmc_weight, int yblen)
cglobal add_dirac_obmc%1_%2, 6,6,5, dst, src, stride, obmc, yblen
    pxor        m4, m4
.loop:
%assign i 0
%rep %1 / mmsize
    mova        m0, [srcq+i]
    mova        m1, m0
    punpcklbw   m0, m4
    punpckhbw   m1, m4
    mova        m2, [obmcq+i]
    mova        m3, m2
   punpcklbw   m2, m4
    punpckhbw   m3, m4
    pmullw      m0, m2
    pmullw      m1, m3
    movu        m2, [dstq+2*i]
    movu        m3, [dstq+2*i+mmsize]
    paddw       m0, m2
    paddw       m1, m3
    movu        [dstq+2*i], m0
    movu        [dstq+2*i+mmsize], m1
%assign i i+mmsize
%endrep
    lea         srcq, [srcq+strideq]
    lea         dstq, [dstq+2*strideq]
    add         obmcq, 32
    sub         yblend, 1
    jg          .loop
    RET
%endm

INIT_MMX
%if ARCH_X86_64 == 0
PUT_RECT mmx
ADD_RECT mmx

HPEL_FILTER mmx
ADD_OBMC 32, mmx
ADD_OBMC 16, mmx
%endif
ADD_OBMC 8, mmx

INIT_XMM
PUT_RECT sse2
ADD_RECT sse2

HPEL_FILTER sse2
ADD_OBMC 32, sse2
ADD_OBMC 16, sse2
Commit	Line	Data
	1	;******************************************************************************
	2	;* Copyright (c) 2010 David Conrad
	3	;*
	4	;* This file is part of FFmpeg.
	5	;*
	6	;* FFmpeg is free software; you can redistribute it and/or
	7	;* modify it under the terms of the GNU Lesser General Public
	8	;* License as published by the Free Software Foundation; either
	9	;* version 2.1 of the License, or (at your option) any later version.
	10	;*
	11	;* FFmpeg is distributed in the hope that it will be useful,
	12	;* but WITHOUT ANY WARRANTY; without even the implied warranty of
	13	;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GNU
	14	;* Lesser General Public License for more details.
	15	;*
	16	;* You should have received a copy of the GNU Lesser General Public
	17	;* License along with FFmpeg; if not, write to the Free Software
	18	;* 51, Inc., Foundation Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
	19	;******************************************************************************
	20
	21	%include "libavutil/x86/x86util.asm"
	22
	23	SECTION_RODATA
	24	pw_7: times 8 dw 7
	25
	26	cextern pw_3
	27	cextern pw_16
	28	cextern pw_32
	29	cextern pb_80
	30
	31	section .text
	32
	33	%macro UNPACK_ADD 6
	34	mov%5 %1, %3
	35	mov%6 m5, %4
	36	mova m4, %1
	37	mova %2, m5
	38	punpcklbw %1, m7
	39	punpcklbw m5, m7
	40	punpckhbw m4, m7
	41	punpckhbw %2, m7
	42	paddw %1, m5
	43	paddw %2, m4
	44	%endmacro
	45
	46	%macro HPEL_FILTER 1
	47	; dirac_hpel_filter_v_sse2(uint8_t dst, uint8_t src, int stride, int width);
	48	cglobal dirac_hpel_filter_v_%1, 4,6,8, dst, src, stride, width, src0, stridex3
	49	mov src0q, srcq
	50	lea stridex3q, [3*strideq]
	51	sub src0q, stridex3q
	52	pxor m7, m7
	53	.loop:
	54	; 7*(src[0] + src[1])
	55	UNPACK_ADD m0, m1, [srcq], [srcq + strideq], a,a
	56	pmullw m0, [pw_7]
	57	pmullw m1, [pw_7]
	58
	59	; 3*( ... + src[-2] + src[3])
	60	UNPACK_ADD m2, m3, [src0q + strideq], [srcq + stridex3q], a,a
	61	paddw m0, m2
	62	paddw m1, m3
	63	pmullw m0, [pw_3]
	64	pmullw m1, [pw_3]
	65
	66	; ... - 7*(src[-1] + src[2])
	67	UNPACK_ADD m2, m3, [src0q + strideq2], [srcq + strideq2], a,a
	68	pmullw m2, [pw_7]
	69	pmullw m3, [pw_7]
	70	psubw m0, m2
	71	psubw m1, m3
	72
	73	; ... - (src[-3] + src[4])
	74	UNPACK_ADD m2, m3, [src0q], [srcq + strideq*4], a,a
	75	psubw m0, m2
	76	psubw m1, m3
	77
	78	paddw m0, [pw_16]
	79	paddw m1, [pw_16]
	80	psraw m0, 5
	81	psraw m1, 5
	82	packuswb m0, m1
	83	mova [dstq], m0
	84	add dstq, mmsize
	85	add srcq, mmsize
	86	add src0q, mmsize
	87	sub widthd, mmsize
	88	jg .loop
	89	RET
	90
	91	; dirac_hpel_filter_h_sse2(uint8_t dst, uint8_t src, int width);
	92	cglobal dirac_hpel_filter_h_%1, 3,3,8, dst, src, width
	93	dec widthd
	94	pxor m7, m7
	95	and widthd, ~(mmsize-1)
	96	.loop:
	97	; 7*(src[0] + src[1])
	98	UNPACK_ADD m0, m1, [srcq + widthq], [srcq + widthq + 1], u,u
	99	pmullw m0, [pw_7]
	100	pmullw m1, [pw_7]
	101
	102	; 3*( ... + src[-2] + src[3])
	103	UNPACK_ADD m2, m3, [srcq + widthq - 2], [srcq + widthq + 3], u,u
	104	paddw m0, m2
	105	paddw m1, m3
	106	pmullw m0, [pw_3]
	107	pmullw m1, [pw_3]
	108
	109	; ... - 7*(src[-1] + src[2])
	110	UNPACK_ADD m2, m3, [srcq + widthq - 1], [srcq + widthq + 2], u,u
	111	pmullw m2, [pw_7]
	112	pmullw m3, [pw_7]
	113	psubw m0, m2
	114	psubw m1, m3
	115
	116	; ... - (src[-3] + src[4])
	117	UNPACK_ADD m2, m3, [srcq + widthq - 3], [srcq + widthq + 4], u,u
	118	psubw m0, m2
	119	psubw m1, m3
	120
	121	paddw m0, [pw_16]
	122	paddw m1, [pw_16]
	123	psraw m0, 5
	124	psraw m1, 5
	125	packuswb m0, m1
	126	mova [dstq + widthq], m0
	127	sub widthd, mmsize
	128	jge .loop
	129	RET
	130	%endmacro
	131
	132	%macro PUT_RECT 1
	133	; void put_rect_clamped(uint8_t dst, int dst_stride, int16_t src, int src_stride, int width, int height)
	134	cglobal put_signed_rect_clamped_%1, 5,9,3, dst, dst_stride, src, src_stride, w, dst2, src2
	135	mova m0, [pb_80]
	136	add wd, (mmsize-1)
	137	and wd, ~(mmsize-1)
	138
	139	%if ARCH_X86_64
	140	movsxd dst_strideq, dst_strided
	141	movsxd src_strideq, src_strided
	142	mov r7d, r5m
	143	mov r8d, wd
	144	%define wspill r8d
	145	%define hd r7d
	146	%else
	147	mov r4m, wd
	148	%define wspill r4m
	149	%define hd r5mp
	150	%endif
	151
	152	.loopy
	153	lea src2q, [srcq+src_strideq*2]
	154	lea dst2q, [dstq+dst_strideq]
	155	.loopx:
	156	sub wd, mmsize
	157	mova m1, [srcq +2*wq]
	158	mova m2, [src2q+2*wq]
	159	packsswb m1, [srcq +2*wq+mmsize]
	160	packsswb m2, [src2q+2*wq+mmsize]
	161	paddb m1, m0
	162	paddb m2, m0
	163	mova [dstq +wq], m1
	164	mova [dst2q+wq], m2
	165	jg .loopx
	166
	167	lea srcq, [srcq+src_strideq*4]
	168	lea dstq, [dstq+dst_strideq*2]
	169	sub hd, 2
	170	mov wd, wspill
	171	jg .loopy
	172	RET
	173	%endm
	174
	175	%macro ADD_RECT 1
	176	; void add_rect_clamped(uint8_t dst, uint16_t src, int stride, int16_t *idwt, int idwt_stride, int width, int height)
	177	cglobal add_rect_clamped_%1, 7,9,3, dst, src, stride, idwt, idwt_stride, w, h
	178	mova m0, [pw_32]
	179	add wd, (mmsize-1)
	180	and wd, ~(mmsize-1)
	181
	182	%if ARCH_X86_64
	183	movsxd strideq, strided
	184	movsxd idwt_strideq, idwt_strided
	185	mov r8d, wd
	186	%define wspill r8d
	187	%else
	188	mov r5m, wd
	189	%define wspill r5m
	190	%endif
	191
	192	.loop:
	193	sub wd, mmsize
	194	movu m1, [srcq +2*wq] ; FIXME: ensure alignment
	195	paddw m1, m0
	196	psraw m1, 6
	197	movu m2, [srcq +2*wq+mmsize] ; FIXME: ensure alignment
	198	paddw m2, m0
	199	psraw m2, 6
	200	paddw m1, [idwtq+2*wq]
	201	paddw m2, [idwtq+2*wq+mmsize]
	202	packuswb m1, m2
	203	mova [dstq +wq], m1
	204	jg .loop
	205
	206	lea srcq, [srcq + 2*strideq]
	207	add dstq, strideq
	208	lea idwtq, [idwtq+ 2*idwt_strideq]
	209	sub hd, 1
	210	mov wd, wspill
	211	jg .loop
	212	RET
	213	%endm
	214
	215	%macro ADD_OBMC 2
	216	; void add_obmc(uint16_t dst, uint8_t src, int stride, uint8_t *obmc_weight, int yblen)
	217	cglobal add_dirac_obmc%1_%2, 6,6,5, dst, src, stride, obmc, yblen
	218	pxor m4, m4
	219	.loop:
	220	%assign i 0
	221	%rep %1 / mmsize
	222	mova m0, [srcq+i]
	223	mova m1, m0
	224	punpcklbw m0, m4
	225	punpckhbw m1, m4
	226	mova m2, [obmcq+i]
	227	mova m3, m2
	228	punpcklbw m2, m4
	229	punpckhbw m3, m4
	230	pmullw m0, m2
	231	pmullw m1, m3
	232	movu m2, [dstq+2*i]
	233	movu m3, [dstq+2*i+mmsize]
	234	paddw m0, m2
	235	paddw m1, m3
	236	movu [dstq+2*i], m0
	237	movu [dstq+2*i+mmsize], m1
	238	%assign i i+mmsize
	239	%endrep
	240	lea srcq, [srcq+strideq]
	241	lea dstq, [dstq+2*strideq]
	242	add obmcq, 32
	243	sub yblend, 1
	244	jg .loop
	245	RET
	246	%endm
	247
	248	INIT_MMX
	249	%if ARCH_X86_64 == 0
	250	PUT_RECT mmx
	251	ADD_RECT mmx
	252
	253	HPEL_FILTER mmx
	254	ADD_OBMC 32, mmx
	255	ADD_OBMC 16, mmx
	256	%endif
	257	ADD_OBMC 8, mmx
	258
	259	INIT_XMM
	260	PUT_RECT sse2
	261	ADD_RECT sse2
	262
	263	HPEL_FILTER sse2
	264	ADD_OBMC 32, sse2
	265	ADD_OBMC 16, sse2