华硕WG X299主板的服务器上安装ubuntu16.04的系统
1.服务器参数(预购参数)
CPU处理器,Intel I9-7940X,3.1GHZ,最大睿频4.3GHZ,14核28线程;
主板:Intel x299芯片,华硕ws x299SAGE主板,4路GPU支持;
内存:DDR4,3000MHZ,64GB,金士顿16GB(3000MHZ)*4;
固态硬盘:1个,Intel 1TB 760P NvMe M.2 SSD;
机械硬盘:3个,希捷4TB*3;
显卡:GeForce GTX 1080Ti 11GB *4;
电源:长诚巨献,GW-EPS1650 1600W;
机箱:74mm * 430mm * 700mm,4U;
其他:PCIE双万兆网卡*1
2.实际参数差别
内存:DDR4,2400MHZ。
3.BIOS参数设置
(1)把内存的频率设置为自动(x299主板)
方法:
开机——F2/delete——Advance Mode(F7)——Ai Tweaker——DRAM Frequency——Auto
(2)关闭Secure boot
方法:
Boot——SecureBoot——Key Management——Clear Secure Boot Keys
(3)启动方式设置为Legacy
Boot——SecureBoot——OS Type——Other OS
Boot——CSM(compatibility support module)——Launch CSM设置为Enabled
Boot——CSM(compatibility support module)——Boot Device Control——Legacy OPROM only
Boot——CSM(compatibility support module)——Boot from Network Devices设置为Legacy only
Boot——CSM(compatibility support module)——Boot from Storage Devices设置为Legacy only
Boot——CSM(compatibility support module)——Boot from PCI-E/PCI Expansion Devices设置为Legacy only
4.制作U盘启动盘
下载ubuntu 16.04的镜像;
准备一个16GB的U盘,8GB的也行;
5.安装系统
系统安装在固态硬盘中
这里注意系统分区,如下
/boot 2048MB 2GB
SWAP 131072MB 128GB
/ 其余
6. 配置静态IP
sudo gedit /etc/network/interfaces
修改内容如下(eno1需改成对应插网线网口号名称)
auto lo
iface lo inet loopback
auto eno1
iface eno1 inet static
address 192.168.9.18
netmask 255.255.255.0
gateway 192.168.9.108
dns-nameservers 8.8.8.8
重启网络服务:
sudo /etc/init.d/networking restart
测试配置的网络服务:
ping 192.168.9.108 ##这是我这边的网关
ping www.baidu.com
如果不能访问域名
sudo gedit /etc/resolv.conf
添加内容如下:
nameserver 8.8.8.8
7. 安装基本包
sudoapt-get update
sudo apt-get upgrade
sudo apt-get install openssh-server htop iotop tmux virtualenv vim
8. 添加用户
sudo adduser test –force-badname
sudo usermod -a -G sudo test
9. 安装cuda
下载驱动,拷贝到服务器上。(我这是提前有备份)
安装驱动和
sudo service lightdm stop
./cuda_xx ##不选择安装cuda-toolkit
sudo service lightdm start
sudo apt install nvidia-cuda-toolkit
测试
nvidia-smi
10. 挂载硬盘
查看插到服务上的硬盘
sudo fdisk -l
格式化未挂载的硬盘
sudo mkfs -t ext4 /dev/sda
sudo mkfs -t ext4 /dev/sdb
sudo mkfs -t ext4 /dev/sdc
sudo fdisk -l
建立挂载目录
cd/
mkdir /DATACENTER1
mkdir /DATACENTER2
mkdir /DATACENTER3
挂载
sudo mount /dev/sdc /DATACENTER1
sudo mount /dev/sdd /DATACENTER2
sudo mount /dev/sde /DATACENTER3
查看挂载状态
df-h
11 按装cuda出问题
卸载旧版本的cuda
sudo apt-get remove –purge nvidia*
安装依赖
sudo apt-get update
sudo apt-get install dkms build-essential linux-headers-generic
把 nouveau 驱动加入黑名单
sudonano /etc/modprobe.d/blacklist-nouveau.conf
在文件blacklist-nouveau.conf 中加入如下内容:
blacklist nouveau
blacklist lbm-nouveau
options nouveau modeset=0
alias nouveau off
alias lbm-nouveau off
禁用 nouveau 内核模块
$echo options nouveau modeset=0 | sudo tee -a/etc/modprobe.d/nouveau-kms.conf
$sudo update-initramfs -u
重启
按照之前的正常安装
12.安装显卡驱动问题汇总
问题1:显卡驱动安装完了后,输入nvidia-smi
没有正确读出显卡的型号信息。
答案:
因为安装的cuda-toolkit不对,解决的办法
(1)卸载当前的驱动sudo apt-get remove –purge nvidida*
(2)安装驱动的时候,不选择安装cuda-toolkit
sudo chmod a+x sudo./cuda_8.0.61_375.26_linux.run
sudo ./cuda_8.0.61_375.26_linux.run
(3)安装完成后安装cuda-toolkit
sudo apt-get install nvidia-cuda-toolkit