x86-64-v2: oggenc, zstd

6 Oct 2022

      == oggenc/libvorbis

First, I'll reconfirm my observation from 2009
(https://lwn.net/Articles/357445/); still holds!

AMD AXP:
ion.wav	File length:  16m 06.0s
i586:
        Elapsed time: 1m 58.1s	Rate:         8.1879
i586 -msse -mfpmath=sse:
        Elapsed time: 1m 41.6s	Rate:         9.5162	(+16%)

All remaining numbers are with AMD 3700X.

jump.wav	File length:  219m 48.0s
-m32            Elapsed time: 4m 13.8s	Rate: 51.9569	(-44.9%)
-m32+sse:       Elapsed time: 2m 50.0s	Rate: 77.5843	(-17.7%)
-m32+sse2:      Elapsed time: 2m 48.1s	Rate: 78.4664	(-16.8%)
x32(debian);	Elapsed time: 2m 21.4s	Rate: 93.2656
x86-64:         Elapsed time: 2m 19.8s	Rate: 94.3681	(baseline)
x86-64-v2:      Elapsed time: 2m 16.5s	Rate: 96.5983	(+2.3%)
x86-64-v3:      Elapsed time: 2m 11.6s	Rate: 100.2360	(+6.2%)

== oggdec jump.ogg

-m32:       real    0m25.519s	user    0m23.618s	sys     0m1.892s
-m32+sse:   real    0m20.964s	user    0m19.231s	sys     0m1.720s
-m32+sse2:  real    0m20.929s	user    0m19.026s	sys     0m1.896s
x32(deb):   real    0m19.510s	user    0m17.552s	sys     0m1.924s
x86-64:    real    0m18.878s	user    0m17.066s	sys     0m1.808s
           real    0m18.892s	user    0m17.469s	sys     0m1.416s
           real    0m19.157s	user    0m17.345s	sys     0m1.804s
x86-64-v2:
	real    0m19.617s	user    0m17.534s	sys     0m1.688s
	real    0m19.032s	user    0m17.489s	sys     0m1.536s
	real    0m19.286s	user    0m17.301s	sys     0m1.972s
x86-64-v3:
	real    0m19.489s	user    0m17.306s	sys     0m1.899s
	real    0m18.898s	user    0m16.920s	sys     0m1.972s
	real    0m19.046s	user    0m17.151s	sys     0m1.889s

== zstd -15 linux-6.0.tar

Note that zstd has hand-crafted assembly and may pick BMI2 already.
Just like with libvorbis, what is being tested here is the
improvement of the *assembler-free* paths (but that much should be
obvious from -march).

opensuse i586:
	real    1m50.580s	user    1m50.621s	sys     0m0.184s
debian x32:
	real    1m55.176s	user    1m55.180s	sys     0m0.580s
opensuse x86_64 (-O2 -Wall -U_FORTIFY_SOURCE -D_FORTIFY_SOURCE=3
-fstack-protector-strong -funwind-tables -fasynchronous-unwind-tables
-fstack-clash-protection -Werror=return-type -flto=auto -ffat-lto-objects):
	real    2m0.109s	user    2m0.156s	sys     0m0.244s
	real    1m59.523s	user    1m59.569s	sys     0m0.224s
	real    2m0.330s	user    2m0.339s	sys     0m0.260s
fromsource CFLAGS=-O2:
	real    1m41.340s	user    1m41.486s	sys     0m0.504s
	real    1m40.347s	user    1m40.445s	sys     0m0.340s
	real    1m41.182s	user    1m41.343s	sys     0m0.496s
fromsource CFLAGS=-O2 -march=x86-64-v2:
	real    1m39.001s	user    1m39.128s	sys     0m0.288s
	real    1m39.615s	user    1m39.761s	sys     0m0.344s
	real    1m39.999s	user    1m40.165s	sys     0m0.660s

== zstd -10 linux-6.0.tar

opensuse i586:
	real    0m32.076s	user    0m32.130s	sys     0m0.192s
debian x32:
	real    0m22.772s	user    0m22.819s	sys     0m0.232s
opensuse x86_64:
	real    0m17.454s	user    0m17.583s	sys     0m0.428s
	real    0m17.678s	user    0m17.773s	sys     0m0.340s
	real    0m17.769s	user    0m17.916s	sys     0m0.377s
fromsource CFLAGS=-O2:
	real    0m18.801s	user    0m18.954s	sys     0m0.297s
	real    0m19.430s	user    0m19.574s	sys     0m0.599s
	real    0m18.818s	user    0m18.914s	sys     0m0.335s
fromsource CFLAGS=-O2 -march=x86-64-v2:
	real    0m18.491s	user    0m18.620s	sys     0m0.361s
	real    0m18.495s	user    0m18.660s	sys     0m0.294s
	real    0m18.698s	user    0m18.796s	sys     0m0.489s

== zstd -3 linux-6.0.tar

opensuse i586:
	real    0m4.757s	user    0m4.866s	sys     0m0.116s
debian x32:
	real    0m3.702s	user    0m3.843s	sys     0m0.122s
opensuse x86_64:
	real    0m4.749s	user    0m4.826s	sys     0m0.201s
	real    0m4.839s	user    0m4.919s	sys     0m0.153s
	real    0m4.858s	user    0m4.882s	sys     0m0.212s
fromsource CFLAGS=-O2
	real    0m2.996s	user    0m3.140s	sys     0m0.478s
	real    0m3.027s	user    0m3.165s	sys     0m0.601s
	real    0m3.064s	user    0m3.174s	sys     0m0.352s
fromsource -march=x86-64-v2:
	real    0m3.008s	user    0m3.158s	sys     0m0.269s
	real    0m2.987s	user    0m3.214s	sys     0m0.528s
	real    0m2.996s	user    0m3.172s	sys     0m0.589s

== Summary ==

Gains from x86-64-v2 are small if any, but the penalties for going 
i586-on-64bit can be really significant.

Jan Engelhardt

Stephan Kulow

Jiri Slaby

dieter

Aaron Puchert

Michal Suchánek

dieter

Stephan Kulow

dieter

Simon Lees

Stephan Kulow

Jan Engelhardt

Stefan Brüns

Stephan Kulow

Aaron Puchert

Jan Engelhardt

tags

participants (8)