CRISPR/Cas9系統(tǒng)為遺傳病基因治療提供了革命性工具,但同時(shí)會(huì)引起潛在的基因脫靶效應(yīng),已成為制約臨床轉(zhuǎn)化的核心障礙。現(xiàn)有脫靶預(yù)測(cè)工具受限于訓(xùn)練數(shù)據(jù)規(guī)模和特定檢測(cè)平臺(tái)依賴,對(duì)未知序列的泛化能力不足。為解決這一領(lǐng)域痛點(diǎn),近日佛山大學(xué)唐冬生教授團(tuán)隊(duì)與深圳市衛(wèi)生健康發(fā)展研究和數(shù)據(jù)管理中心趙靚團(tuán)隊(duì)聯(lián)合在《Communications Biology》(IF:5.2;中科院生物學(xué)一區(qū)Top期刊)發(fā)表創(chuàng)新成果,開發(fā)出首個(gè)基于RNA語言模型的CRISPR/Cas9通用脫靶預(yù)測(cè)模型:CCLMoff。
CCLMoff的核心創(chuàng)新在于其生物信息驅(qū)動(dòng)的語言模型架構(gòu)。研究團(tuán)隊(duì)創(chuàng)造性地采用“問答框架“:將sgRNA序列視為“問題“,目標(biāo)DNA序列經(jīng)偽RNA化處理(胸腺嘧啶T→尿嘧啶U轉(zhuǎn)換)后作為“答案“。利用預(yù)訓(xùn)練模型RNA-FM(基于RNAcentral數(shù)據(jù)庫中2300萬條RNA序列訓(xùn)練)初始化12層Transformer編碼器,通過[SEP]標(biāo)記分隔雙序列輸入,最終提取[CLS]標(biāo)記的隱藏狀態(tài)經(jīng)多層感知器來預(yù)測(cè)脫靶概率(圖1)。
圖1 . CCLMoff模型架構(gòu)
CCLMoff模型基于直接學(xué)習(xí)sgRNA與DNA相互作用模式進(jìn)行思考,在平衡準(zhǔn)確率、AUROC和AUPRC等多項(xiàng)評(píng)價(jià)指標(biāo)上,都顯著優(yōu)于CRISPR-Net、Cas-OFFinder等現(xiàn)有模型。該模型還能突破傳統(tǒng)sgRNA 20nt的長(zhǎng)度限制,對(duì)19/21nt非常規(guī)sgRNA的脫靶預(yù)測(cè)也同樣高效,泛化能力顯著增強(qiáng)。CCLMoff為克服脫靶效應(yīng)這一CRISPR/Cas9應(yīng)用核心難題提供了精準(zhǔn)、泛化的AI解決方案,有望推動(dòng)該領(lǐng)域研究進(jìn)程。
本研究由國家重點(diǎn)研發(fā)計(jì)劃((2021YFA0805901)、國家自然科學(xué)基金(82070199)、廣東省基礎(chǔ)與應(yīng)用基礎(chǔ)研究基金(2021A1515220078)和廣東省重點(diǎn)領(lǐng)域研發(fā)計(jì)劃(2022B0202110002)等項(xiàng)目資助完成。佛山大學(xué)為第一署名單位,佛山大學(xué)唐冬生教授、朱向星副教授和深圳市衛(wèi)生健康發(fā)展研究和數(shù)據(jù)管理中心趙靚博士為共同通訊作者。
撰稿人:朱向星
初審人:郭嘉亮
終審人:劉小輝