[deb_ffmpeg.git] / ffmpeg / libavcodec / x86 / bswapdsp.asm

;******************************************************************************
;* optimized bswap buffer functions
;* Copyright (c) 2008 Loren Merritt
;* Copyright (c) 2003-2013 Michael Niedermayer
;* Copyright (c) 2013 Daniel Kang
;*
;* This file is part of FFmpeg.
;*
;* FFmpeg is free software; you can redistribute it and/or
;* modify it under the terms of the GNU Lesser General Public
;* License as published by the Free Software Foundation; either
;* version 2.1 of the License, or (at your option) any later version.
;*
;* FFmpeg is distributed in the hope that it will be useful,
;* but WITHOUT ANY WARRANTY; without even the implied warranty of
;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
;* Lesser General Public License for more details.
;*
;* You should have received a copy of the GNU Lesser General Public
;* License along with FFmpeg; if not, write to the Free Software
;* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
;******************************************************************************

%include "libavutil/x86/x86util.asm"

SECTION_RODATA
pb_bswap32: db 3, 2, 1, 0, 7, 6, 5, 4, 11, 10, 9, 8, 15, 14, 13, 12

cextern pb_80

SECTION_TEXT

; %1 = aligned/unaligned
%macro BSWAP_LOOPS  1
    mov      r3, r2
    sar      r2, 3
    jz       .left4_%1
.loop8_%1:
    mov%1    m0, [r1 +  0]
    mov%1    m1, [r1 + 16]
%if cpuflag(ssse3)
    pshufb   m0, m2
    pshufb   m1, m2
    mov%1    [r0 +  0], m0
    mov%1    [r0 + 16], m1
%else
    pshuflw  m0, m0, 10110001b
    pshuflw  m1, m1, 10110001b
    pshufhw  m0, m0, 10110001b
    pshufhw  m1, m1, 10110001b
    mova     m2, m0
    mova     m3, m1
    psllw    m0, 8
    psllw    m1, 8
    psrlw    m2, 8
    psrlw    m3, 8
    por      m2, m0
    por      m3, m1
    mov%1    [r0 +  0], m2
    mov%1    [r0 + 16], m3
%endif
    add      r0, 32
    add      r1, 32
    dec      r2
    jnz      .loop8_%1
.left4_%1:
    mov      r2, r3
    and      r3, 4
    jz       .left
    mov%1    m0, [r1]
%if cpuflag(ssse3)
    pshufb   m0, m2
    mov%1    [r0], m0
%else
    pshuflw  m0, m0, 10110001b
    pshufhw  m0, m0, 10110001b
    mova     m2, m0
    psllw    m0, 8
    psrlw    m2, 8
    por      m2, m0
    mov%1    [r0], m2
%endif
    add      r1, 16
    add      r0, 16
%endmacro

; void ff_bswap_buf(uint32_t *dst, const uint32_t *src, int w);
%macro BSWAP32_BUF 0
%if cpuflag(ssse3)
cglobal bswap32_buf, 3,4,3
    mov      r3, r1
    mova     m2, [pb_bswap32]
%else
cglobal bswap32_buf, 3,4,5
    mov      r3, r1
%endif
    or       r3, r0
    and      r3, 15
    jz       .start_align
    BSWAP_LOOPS  u
    jmp      .left
.start_align:
    BSWAP_LOOPS  a
.left:
%if cpuflag(ssse3)
    mov      r3, r2
    and      r2, 2
    jz       .left1
    movq     m0, [r1]
    pshufb   m0, m2
    movq     [r0], m0
    add      r1, 8
    add      r0, 8
.left1:
    and      r3, 1
    jz       .end
    mov      r2d, [r1]
    bswap    r2d
    mov      [r0], r2d
%else
    and      r2, 3
    jz       .end
.loop2:
    mov      r3d, [r1]
    bswap    r3d
    mov      [r0], r3d
    add      r1, 4
    add      r0, 4
    dec      r2
    jnz      .loop2
%endif
.end:
    RET
%endmacro

INIT_XMM sse2
BSWAP32_BUF

INIT_XMM ssse3
BSWAP32_BUF
Commit	Line	Data
	1	;******************************************************************************
	2	;* optimized bswap buffer functions
	3	;* Copyright (c) 2008 Loren Merritt
	4	;* Copyright (c) 2003-2013 Michael Niedermayer
	5	;* Copyright (c) 2013 Daniel Kang
	6	;*
	7	;* This file is part of FFmpeg.
	8	;*
	9	;* FFmpeg is free software; you can redistribute it and/or
	10	;* modify it under the terms of the GNU Lesser General Public
	11	;* License as published by the Free Software Foundation; either
	12	;* version 2.1 of the License, or (at your option) any later version.
	13	;*
	14	;* FFmpeg is distributed in the hope that it will be useful,
	15	;* but WITHOUT ANY WARRANTY; without even the implied warranty of
	16	;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GNU
	17	;* Lesser General Public License for more details.
	18	;*
	19	;* You should have received a copy of the GNU Lesser General Public
	20	;* License along with FFmpeg; if not, write to the Free Software
	21	;* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
	22	;******************************************************************************
	23
	24	%include "libavutil/x86/x86util.asm"
	25
	26	SECTION_RODATA
	27	pb_bswap32: db 3, 2, 1, 0, 7, 6, 5, 4, 11, 10, 9, 8, 15, 14, 13, 12
	28
	29	cextern pb_80
	30
	31	SECTION_TEXT
	32
	33	; %1 = aligned/unaligned
	34	%macro BSWAP_LOOPS 1
	35	mov r3, r2
	36	sar r2, 3
	37	jz .left4_%1
	38	.loop8_%1:
	39	mov%1 m0, [r1 + 0]
	40	mov%1 m1, [r1 + 16]
	41	%if cpuflag(ssse3)
	42	pshufb m0, m2
	43	pshufb m1, m2
	44	mov%1 [r0 + 0], m0
	45	mov%1 [r0 + 16], m1
	46	%else
	47	pshuflw m0, m0, 10110001b
	48	pshuflw m1, m1, 10110001b
	49	pshufhw m0, m0, 10110001b
	50	pshufhw m1, m1, 10110001b
	51	mova m2, m0
	52	mova m3, m1
	53	psllw m0, 8
	54	psllw m1, 8
	55	psrlw m2, 8
	56	psrlw m3, 8
	57	por m2, m0
	58	por m3, m1
	59	mov%1 [r0 + 0], m2
	60	mov%1 [r0 + 16], m3
	61	%endif
	62	add r0, 32
	63	add r1, 32
	64	dec r2
	65	jnz .loop8_%1
	66	.left4_%1:
	67	mov r2, r3
	68	and r3, 4
	69	jz .left
	70	mov%1 m0, [r1]
	71	%if cpuflag(ssse3)
	72	pshufb m0, m2
	73	mov%1 [r0], m0
	74	%else
	75	pshuflw m0, m0, 10110001b
	76	pshufhw m0, m0, 10110001b
	77	mova m2, m0
	78	psllw m0, 8
	79	psrlw m2, 8
	80	por m2, m0
	81	mov%1 [r0], m2
	82	%endif
	83	add r1, 16
	84	add r0, 16
	85	%endmacro
	86
	87	; void ff_bswap_buf(uint32_t dst, const uint32_t src, int w);
	88	%macro BSWAP32_BUF 0
	89	%if cpuflag(ssse3)
	90	cglobal bswap32_buf, 3,4,3
	91	mov r3, r1
	92	mova m2, [pb_bswap32]
	93	%else
	94	cglobal bswap32_buf, 3,4,5
	95	mov r3, r1
	96	%endif
	97	or r3, r0
	98	and r3, 15
	99	jz .start_align
	100	BSWAP_LOOPS u
	101	jmp .left
	102	.start_align:
	103	BSWAP_LOOPS a
	104	.left:
	105	%if cpuflag(ssse3)
	106	mov r3, r2
	107	and r2, 2
	108	jz .left1
	109	movq m0, [r1]
	110	pshufb m0, m2
	111	movq [r0], m0
	112	add r1, 8
	113	add r0, 8
	114	.left1:
	115	and r3, 1
	116	jz .end
	117	mov r2d, [r1]
	118	bswap r2d
	119	mov [r0], r2d
	120	%else
	121	and r2, 3
	122	jz .end
	123	.loop2:
	124	mov r3d, [r1]
	125	bswap r3d
	126	mov [r0], r3d
	127	add r1, 4
	128	add r0, 4
	129	dec r2
	130	jnz .loop2
	131	%endif
	132	.end:
	133	RET
	134	%endmacro
	135
	136	INIT_XMM sse2
	137	BSWAP32_BUF
	138
	139	INIT_XMM ssse3
	140	BSWAP32_BUF