自動向量化的匯編器選項
您可以使用以下的幾個選項來匯編程序:
-qhot -qnostrict (for Fortran)
-qhot -qnostrict –qignerrno (for C/C++)
-qhot -O3
-O4
-O5
當您在使用這些選項集中的一個時,通過調(diào)用等價 MASS 向量函數(shù)(除了對以下函數(shù)的訪問除外:vatan2、vsatan2、 vdnint、 vdint、 vcosisin、vscosisin、vqdrt、vsqdrt、vrqdrt、vsrqdrt、vpopcnt4、vpopcnt8、vexp2、 vexp2m1、vsexp2、 vsexp2m1、vlog2、 vlog21p、 vslog2 和 vslog21p),匯編器會自動嘗試對系統(tǒng)數(shù)學(xué)函數(shù)的訪問向量化。如果匯編器不能對程序進行向量化,它會自動試著調(diào)用等價 MASS 標量函數(shù)。對于自動化的標量或者向量,匯編器會使用匯編器庫 libxlopt.a 中包含的 MASS 函數(shù)的版本。您不需要向代碼中的 MASS 函數(shù)添加任何特意的調(diào)用,或者鏈接 xlopt 庫。
除了一系列的選項之外,當 -qipa 選項處于可用狀態(tài)時,如果匯編器不能進行向量化,那么它會試著在決定調(diào)用它們之前去內(nèi)聯(lián) MASS 標量函數(shù)。
如果您想要取消自動向量化的激活,那么您可以添加選項 –qhot=novector。
用例研究
接下來的部分是一個實際程序的范例 — 一個離散的 Fourier 轉(zhuǎn)變(DFT) — 顯示了在匯編不同匯編器選項時的改善結(jié)果。程序已經(jīng)足夠簡單以方便演示,然后又足夠的復(fù)雜以提供非瑣細的優(yōu)化機會。
兩個程序的計時都是在附錄 3 中給出的驅(qū)動器程序完成的,運行的環(huán)境是在 4.704 GHz 下運行的 POWER6 電腦。
附錄 1 顯示了 Fortran DFT 源程序。它包含了一個嵌套的循環(huán),該循環(huán)會調(diào)用 exp()、cos() 以及 sin(),接下來是一個調(diào)用 sin() 和 sqrt() 的循環(huán)。程序會使用 -O3(它并不能進行自動向量化) 并使用 –O4 (它能使用自動向量化)。
注意自動向量化帶來的好處會隨著問題規(guī)模的增加而增加,最終當問題的規(guī)模達到 2000 時加速的程度會達到 8.94x 。
附錄 2 顯示了附錄 1 中 Fortran DFT 程序的 C 版本(它包含了一個虛 consume() 路徑,這樣匯編器的內(nèi)部程序化分析[IPA]就不能看到,計算的結(jié)果實際上在演示范例中并沒有用得上,并因此可以改善整個的程序)。
程序?qū)褂?-O3(它并不會提供自動向量化) ,使用 -O4 (它提供自動向量化),使用 –O5 (它提供自動向量化并提供 IPA)。
正如在 Fortran 范例中演示的那樣,自動向量化帶來的好處隨著問題規(guī)模的增加而增加,最后當 n=2000 的時候達到了。另外,IPA 在 -O5 處提供的活化能夠提供一個額外的 1.22x 加速,因為它可以決定輸入與輸出沒有別名(這就是說,它沒有在內(nèi)存中重疊),允許它去向量化進行極坐標的轉(zhuǎn)變。-O5 在 –O3 的基礎(chǔ)上加速的程度是 7.33x 。
北京 | 天津 | 上海 | 江蘇 | 山東 |
安徽 | 浙江 | 江西 | 福建 | 深圳 |
廣東 | 河北 | 湖南 | 廣西 | 河南 |
海南 | 湖北 | 四川 | 重慶 | 云南 |
貴州 | 西藏 | 新疆 | 陜西 | 山西 |
寧夏 | 甘肅 | 青海 | 遼寧 | 吉林 |
黑龍江 | 內(nèi)蒙古 |