系統(tǒng)運(yùn)維工程師
面議
南充蓬安縣
應(yīng)屆畢業(yè)生
學(xué)歷不限
系統(tǒng)運(yùn)維工程師
面議
南充蓬安縣
應(yīng)屆畢業(yè)生
學(xué)歷不限
職位描述
該職位還未進(jìn)行加V認(rèn)證,請(qǐng)仔細(xì)了解后再進(jìn)行投遞!
一、崗位職責(zé)
1.算力集群建設(shè)與運(yùn)維
o監(jiān)控算力集群的性能指標(biāo),如 CPU 利用率、內(nèi)存使用率、網(wǎng)絡(luò)帶寬等。
o根據(jù)業(yè)務(wù)需求和性能數(shù)據(jù),對(duì)集群進(jìn)行優(yōu)化和調(diào)整。
o通過(guò)調(diào)整系統(tǒng)參數(shù)、優(yōu)化算法等方式,提高集群的計(jì)算效率和響應(yīng)速度。
o參與 GPU 集群的日常管理、運(yùn)維,協(xié)助制定相關(guān)產(chǎn)品方案和技術(shù)路線,確保產(chǎn)品能夠支持高并發(fā)和高性能計(jì)算需求。
2.資源管理與分配
o合理規(guī)劃和分配算力資源,確保各業(yè)務(wù)部門(mén)的需求得到滿足。
o對(duì)資源使用情況進(jìn)行監(jiān)控和統(tǒng)計(jì),提出資源優(yōu)化建議。
o根據(jù)不同項(xiàng)目的優(yōu)先級(jí)和資源需求,動(dòng)態(tài)分配計(jì)算資源,提高資源利用率。
3.安全管理
o確保算力集群的系統(tǒng)安全,包括設(shè)置訪問(wèn)權(quán)限、安裝防火墻、防范病毒和惡意攻擊等。
o定期進(jìn)行安全漏洞掃描和修復(fù),保障數(shù)據(jù)的安全和隱私。
4.技術(shù)研究與創(chuàng)新
o關(guān)注行業(yè)***動(dòng)態(tài),研究和引入新的算力集群技術(shù)和平臺(tái)。
o參與公司內(nèi)部的技術(shù)交流和分享,提升團(tuán)隊(duì)整體技術(shù)水平。
o協(xié)助進(jìn)行 GPU 集群的總體規(guī)劃與建設(shè),提供 AI 服務(wù)器、網(wǎng)絡(luò)技術(shù)支持。
二、任職要求
1.教育背景
o計(jì)算機(jī)科學(xué)、電子工程、信息技術(shù)等相關(guān)專(zhuān)業(yè)本科及以上學(xué)歷。
2.工作經(jīng)驗(yàn)
o具有1年以上算力集群管理和維護(hù)經(jīng)驗(yàn)。
o有大型數(shù)據(jù)中心或云計(jì)算環(huán)境工作經(jīng)驗(yàn)者優(yōu)先。
3.技術(shù)技能
o熟悉 Linux 平臺(tái),掌握Shell/Python、Docker,了解 IB、RoCE 網(wǎng)絡(luò),有 NVIDIA 等 GPU 集群部署、調(diào)度、管理、優(yōu)化經(jīng)驗(yàn)者優(yōu)先。
o實(shí)施過(guò) GPU/DPU 集群的網(wǎng)絡(luò)規(guī)劃、大規(guī)模部署、性能調(diào)優(yōu)和整體交付,熟悉 IB 組網(wǎng),有組織裸機(jī)和虛機(jī)等方式的 GPU 資源和服務(wù)經(jīng)驗(yàn)者優(yōu)先。
o熟悉英偉達(dá) AI 套件(含 CUDA、NCCL、Tools 及各種調(diào)優(yōu)、部署工具)。
o熟悉主流監(jiān)控軟件zabbix/Prometheus。
4.能力素質(zhì)
o具備較強(qiáng)的問(wèn)題解決能力和故障排查能力,能夠快速定位和解決復(fù)雜問(wèn)題。
o具有良好的團(tuán)隊(duì)合作精神和溝通能力,能夠與不同部門(mén)協(xié)作。
o有較強(qiáng)的學(xué)習(xí)能力和創(chuàng)新精神,能夠適應(yīng)快速變化的技術(shù)環(huán)境。
1.算力集群建設(shè)與運(yùn)維
o監(jiān)控算力集群的性能指標(biāo),如 CPU 利用率、內(nèi)存使用率、網(wǎng)絡(luò)帶寬等。
o根據(jù)業(yè)務(wù)需求和性能數(shù)據(jù),對(duì)集群進(jìn)行優(yōu)化和調(diào)整。
o通過(guò)調(diào)整系統(tǒng)參數(shù)、優(yōu)化算法等方式,提高集群的計(jì)算效率和響應(yīng)速度。
o參與 GPU 集群的日常管理、運(yùn)維,協(xié)助制定相關(guān)產(chǎn)品方案和技術(shù)路線,確保產(chǎn)品能夠支持高并發(fā)和高性能計(jì)算需求。
2.資源管理與分配
o合理規(guī)劃和分配算力資源,確保各業(yè)務(wù)部門(mén)的需求得到滿足。
o對(duì)資源使用情況進(jìn)行監(jiān)控和統(tǒng)計(jì),提出資源優(yōu)化建議。
o根據(jù)不同項(xiàng)目的優(yōu)先級(jí)和資源需求,動(dòng)態(tài)分配計(jì)算資源,提高資源利用率。
3.安全管理
o確保算力集群的系統(tǒng)安全,包括設(shè)置訪問(wèn)權(quán)限、安裝防火墻、防范病毒和惡意攻擊等。
o定期進(jìn)行安全漏洞掃描和修復(fù),保障數(shù)據(jù)的安全和隱私。
4.技術(shù)研究與創(chuàng)新
o關(guān)注行業(yè)***動(dòng)態(tài),研究和引入新的算力集群技術(shù)和平臺(tái)。
o參與公司內(nèi)部的技術(shù)交流和分享,提升團(tuán)隊(duì)整體技術(shù)水平。
o協(xié)助進(jìn)行 GPU 集群的總體規(guī)劃與建設(shè),提供 AI 服務(wù)器、網(wǎng)絡(luò)技術(shù)支持。
二、任職要求
1.教育背景
o計(jì)算機(jī)科學(xué)、電子工程、信息技術(shù)等相關(guān)專(zhuān)業(yè)本科及以上學(xué)歷。
2.工作經(jīng)驗(yàn)
o具有1年以上算力集群管理和維護(hù)經(jīng)驗(yàn)。
o有大型數(shù)據(jù)中心或云計(jì)算環(huán)境工作經(jīng)驗(yàn)者優(yōu)先。
3.技術(shù)技能
o熟悉 Linux 平臺(tái),掌握Shell/Python、Docker,了解 IB、RoCE 網(wǎng)絡(luò),有 NVIDIA 等 GPU 集群部署、調(diào)度、管理、優(yōu)化經(jīng)驗(yàn)者優(yōu)先。
o實(shí)施過(guò) GPU/DPU 集群的網(wǎng)絡(luò)規(guī)劃、大規(guī)模部署、性能調(diào)優(yōu)和整體交付,熟悉 IB 組網(wǎng),有組織裸機(jī)和虛機(jī)等方式的 GPU 資源和服務(wù)經(jīng)驗(yàn)者優(yōu)先。
o熟悉英偉達(dá) AI 套件(含 CUDA、NCCL、Tools 及各種調(diào)優(yōu)、部署工具)。
o熟悉主流監(jiān)控軟件zabbix/Prometheus。
4.能力素質(zhì)
o具備較強(qiáng)的問(wèn)題解決能力和故障排查能力,能夠快速定位和解決復(fù)雜問(wèn)題。
o具有良好的團(tuán)隊(duì)合作精神和溝通能力,能夠與不同部門(mén)協(xié)作。
o有較強(qiáng)的學(xué)習(xí)能力和創(chuàng)新精神,能夠適應(yīng)快速變化的技術(shù)環(huán)境。
工作地點(diǎn)
地址:南充蓬安縣太和橋
查看地圖
以擔(dān)?;蛉魏卫碛伤魅∝?cái)物,扣押證照,均涉嫌違法,請(qǐng)?zhí)岣呔?
職位發(fā)布者
趙女士HR
北京光環(huán)新網(wǎng)科技股份有限公司
- 互聯(lián)網(wǎng)·電子商務(wù)
- 500-999人
- 國(guó)內(nèi)上市公司
- 東城區(qū)東中街9號(hào)東環(huán)廣場(chǎng)A座二層
相似職位
-
手勢(shì)算法工程師 面議南充 應(yīng)屆畢業(yè)生 學(xué)歷不限四川達(dá)森企業(yè)管理咨詢(xún)有限公司
-
電力實(shí)施工程師(南充) 面議南充 應(yīng)屆畢業(yè)生 學(xué)歷不限杭州昊美科技有限公司
-
主任硬件工程師 面議南充 應(yīng)屆畢業(yè)生 學(xué)歷不限四川達(dá)森企業(yè)管理咨詢(xún)有限公司
-
主任硬件工程師 面議南充 應(yīng)屆畢業(yè)生 學(xué)歷不限四川達(dá)森企業(yè)管理咨詢(xún)有限公司
-
弱電系統(tǒng)集成工程師 7000-12000元南充 應(yīng)屆畢業(yè)生 大專(zhuān)四川旅發(fā)環(huán)??萍加邢薰?