哈佛團隊研發HPV-DeepSeek,已啓動更大規模臨牀驗證

由 DeepTech深科技 發佈於 科技

'25-10-05

HPV-DeepSeek 是什麼?乍一看,你可能覺得這是不是和中國的 DeepSeek 公司有什麼關係?事實上,這是一羣科學家於近期打造的一款液體活檢檢測方法,該方法可以在無症狀個體出現症狀的 10 年前就能檢測出人乳頭瘤病毒(HPV,Human Papillomavirus)相關的口咽癌,日前相關論文發表於《美國國家癌症研究所期刊》。


我們無法得知研究人員在爲這一技術命名時是否從國內的 DeepSeek 模型汲取了靈感,但對於熟悉這一模型的國人來說,可能看到 HPV-DeepSeek 這一名稱會感到多了幾分親切。然而,該技術確實是一項國外技術,其由美國哈佛醫學院助理教授、博德研究所副研究員、麻省眼耳醫院頭頸外科腫瘤科主治外科醫生和麥克托特頭頸癌中心首席研究院丹尼爾·L·法登(Daniel L.Faden)率隊完成。


圖 | 丹尼爾·L·法登(Daniel L.Faden)(來源:https://oto.hms.harvard.edu/people/daniel-l-faden)


通過針對這類癌症進行早期診斷,HPV-DeepSeek 不僅可以提高治療成功率,還能減少使用激進療法。這一成果首次證明“HPV+口咽癌”的精準早期檢測是可行的,通過血液樣本可以更早地檢測出癌症,爲篩選 HPV 相關的口咽癌帶來了新機會。


(來源:https://youtu.be/y-n_-JuK89M)


據瞭解,HPV-DeepSeek 依靠全基因組測序來識別從腫瘤中分離並在血液中循環的 HPV DNA 微小片段。該團隊的早期研究表明,這一檢測方法在患者初次就診時,其診斷癌症的特異性和敏感性均可達到 99%,對於癌症早期檢測的敏感性高達 79%,優於現有的診斷方法。


爲了確定 HPV-DeepSeek 能否在患者確診的很久之前就檢測出 HPV 相關口咽癌,研究人員針對來自麻省總醫院布萊根生物庫的 56 樣本進行了測試,其中 28 個樣本來自多年後患上 HPV 相關口咽癌的個體,另外 28 個樣本來自健康對照者。在 28 份後來患上癌症的患者血液樣本中,研究人員從其中的 22 份中檢測到了 HPV 腫瘤 DNA,而所有 28 份對照樣本的檢測結果均爲陰性,這表明此次檢測方法具有高度的特異性。對於距離患者確診時間較近時所採集的血液樣本,這一檢測方法能夠更好地檢測出其中的 HPV DNA。在一份距離患者確診 7.8 年之前採集的血液樣本中,研究人員也檢測出了陽性成果。


利用機器學習,研究人員進一步提高了這一方法的測試能力,使得其能準確識別出 28 例癌症病例中的 27 例,甚至能從患者確診 10 年之前收集的樣本中識別出癌症。


具體來說,研究人員利用 306 例“HPV+口咽癌”病例和對照組數據訓練並驗證了一個機器學習模型。結果顯示,早期檢測的敏感性提升 96%,最長可以提前 10 年。研究人員表示,這可能是迄今爲止基於循環腫瘤 DNA(ctDNA,Circulating Tumor DNA)的癌症早期檢測中最長的檢測時間。


期間,他們採用了二元機器學習方法,藉此將樣本分類爲 HPV 陽性口咽鱗狀細胞癌和非 HPV 陽性口咽磷狀細胞癌。在建模之前,研究人員通過採取標準數據預處理技術,針對數值特徵進行了最小-最大歸一化處理。在選擇這些數值特徵時,他們主要基於 HPV-DeepSeek 的五個輸出指標:第一個指標是獨特的 HPV 對齊讀數,第二個指標是基因組覆蓋率,第三個指標是平均片段長度,第四個指標是片段長度偏度,第五個指標是片段長度峯度。


通過此,研究人員排除了一些其他特徵,比如高危 HPV 單核苷酸多態性、PIK3CA 突變和病毒整合事件,之所以將這些特徵排除在外,是因爲它們的可靠註釋需要較高的測序覆蓋率,而這在預診斷樣本中是不可行的。


在獨立機器學習訓練與測試列隊中,研究人員將 80% 的樣本用於訓練,將 20% 的樣本用於測試。藉此訓練了多種可解釋模型架構,包括隨機森林(Random Forest)、AdaBoost 和樸素貝葉斯(Naive Bayes)。模型性能指標包括準確率、精確率、召回率、宏觀 F1 分數、特異性、陰性預測值和受試者工作特徵曲線下面積(AUC-ROC,Area Under the Receiver Operating Characteristic Curve)。


在適用的情況下,研究人員使用 10 折交叉驗證在訓練集上進行超參數調優。針對基於決策樹的模型,研究人員對其進行了可視化,以便能夠識別關鍵預測因子。在對模型進行調優之後,研究人員對模型進行了最終確定,並針對保留的測試集進行了 Bootstrap 重採樣,以便生成模型性能指標的經驗 95% 置信區間。


然後,研究人員使用分層 K 折生成了交叉驗證和測試集的 AUC-ROC 曲線。爲了解釋模型,研究人員使用了沙普利加性解釋(SHAP,SHapley Additive Explanations)技術,它能夠估計每個輸入特徵對於個體預測的貢獻。


SHAP 值指標能夠顯示輸入特徵在所有測試樣本中的影響方向和影響大小,藉此得到了每個特徵的平均 SHAP 值和模型之間的總體重要性排名。需要說明的是,機器學習模型具有等效的性能和重疊的置信區間,同時研究人員選擇了樸素貝葉斯作爲代表模型。


研究人員在論文中指出,機器學習顯著改善了距離時間較遠的樣本的分類能力,這種提升主要源於以下兩個方面。首先,能夠針對獨特讀數數量和基因組覆蓋百分比這兩個主要特徵進行差異化加權,而非採用稀釋試驗來確定固定閾值。其次,能夠在特定模型中引入片段組學特徵。


(來源:https://academic.oup.com/jnci/advance-article-abstract/doi/10.1093/jnci/djaf249/8248381?)


研究中,研究人員還將 HPV-DeepSeek 與通過 ddPCR(目前用於檢測 ctHPVDNA 的臨牀標準護理)進行的 ctHPVDNA 檢測進行了比較,藉此發現 HPV-DeepSeek 能夠顯著提高早期檢測敏感性和最長提前時間。


除此之外,HPV-DeepSeek 還具備一些其他優勢,比如能夠同時檢測所有的 HPV 基因型,能夠檢測和註釋大量預後和支持性診斷特徵。結合該檢測的總體高敏感性和特異性,這表明針對“HPV+口咽鱗狀細胞癌”的單一或組合的基於血液的早期檢測方法在技術上是可行的。


基於循環腫瘤 DNA 的早期檢測方法確實有望顯著改善癌症早期診斷,並且尤其適用於目前缺乏篩查手段的癌種。當前,大多數癌症類型由於在確診時缺乏篩查,導致患者在接受治療時往往已經拖至晚期甚至開始出現臨牀症狀。而患者直到癌症晚期纔得到診斷,就會導致生存率下降、醫療成本增加以及病損加重。


HPV 是美國大約 70% 口咽癌患者的病因,口咽癌也是與 HPV 病毒相關的最常見癌症類型。目前,這類癌症的發病率呈現出逐年上升的趨勢。其他一些 HPV 相關癌症已經擁有成熟的篩選方案,但是此前尚未出現檢測 HPV 相關口咽癌的檢測方法。


對於 HPV 相關口咽癌患者來說,他們往往在腫瘤已經擴散到數十億個細胞、引發症狀並已經擴散到附近淋巴結時才被診斷出來。研究人員表示,當患者出現癌症症狀纔來到醫院時,這時所需要接受的治療可能會帶來嚴重的終身副作用。因此,開發能夠更早發現這類癌症的篩查工具,能夠讓患者更早地接受治療和改善預後。


而本次研究還使用了後來發展爲“HPV+口咽鱗狀細胞癌”的無症狀個體和人羣對照的血漿樣本,結合 HPV-DeepSeek 這一新型超靈敏多特徵的液體活檢技術,證明對於敏感和特異的基於血液的“HPV+口咽鱗狀細胞癌”早期檢測來說,HPV-DeepSeek 可以將檢測時間提前到患者在臨牀上被確認患癌的 10 年之前,這爲 HPV 相關口咽癌提供基於血液的早期檢測測試帶來了新機會。


目前,研究人員正在美國國立衛生研究院資助的第二項盲法研究中繼續驗證本次方法,涉及到使用美國國家癌症研究所的前列腺癌、肺癌、結直腸癌和卵巢癌的數百個樣本,預計將能惠及更多患者。


參考資料:

相關論文
https://academic.oup.com/jnci/advance-article-abstract/doi/10.1093/jnci/djaf249/8248381?redirectedFrom=fulltext

https://oto.hms.harvard.edu/people/daniel-l-faden

https://scitechdaily.com/breakthrough-blood-test-detects-head-and-neck-cancer-up-to-10-years-before-symptoms/

https://faden-lab.mgh.harvard.edu/newest-manuscript-findings-featuring-hpv-deepseek-and-early-detection-of-hpvopc-up-to-10-years-before-diagnosis/

https://www.massgeneralbrigham.org/en/about/newsroom/press-releases/blood-test-identifies-hpv-associated-head-and-neck-cancers

https://youtu.be/y-n_-JuK89M

Scroll to Top