
2024年您產品必備的10大AI API推薦
CT.gov 數據庫主要包括以下類型的研究:
注意:不是所有的臨床試驗或觀察性研究都會收錄在 CT.gov 數據庫中。美國的法律、法規和政策要求申辦方或研究者必須向 CT.gov 提交某些類型的臨床試驗;只有少數政策要求將觀察性研究也列入該數據庫。對于法律或政策未明確要求提交的臨床研究,申辦方或研究者可以自主選擇是否將其提交至 CT.gov;但一旦選擇將研究列入 CT.gov,則必須保持該項研究信息的及時更新并符合相關信息提交要求。另外,本文延用 “臨床試驗數據庫” 這一習慣表述來描述 CT.gov 數據庫,盡管現在其適用范圍較最初創立時要求更廣,包括部分其它類型臨床研究項目等。
關于 CT.gov 適應臨床試驗(Applicable Clinical Trial, ACT)
除上述法律明確規定必必須提交的臨床試驗之外,下面兩類型臨床研究也需要在 CT.gov 進行提交:
CT.gov 臨床試驗主要信息通常一項具體臨床試驗提交包括以下關鍵信息:研究基本信息(研究標題、分期、概要、編號、關鍵詞等)、研究最新狀態、研究開始和完成時間、研究目的、具體干預措施、參與條件(入排標準)、試驗設計(研究類型)、研究結果、監管信息、申辦方和研究者信息、研究地點、聯系方式及其它與該項研究相關的論文或出版物等,上述信息有助于提高臨床試驗的透明度、減少或避免重復性研究。
隨著時間的推移,法律、規章和政策的變化可能會導致具體的信息提交要求發生變化,但整體趨勢是朝著更嚴格的方向演進,這包括了提交數據的內容、覆蓋范圍和時間節點等方面,這種趨勢也反映了人們對臨床試驗信息準確性、完整性和及時性的日益關注。
與 CT.gov 信息提交要求變化的主要里程碑事件
注:NIH / NLM 不對提交的內容進行科學性審查,申辦方和研究者應對所提交數據的安全性、科學性和準確性負責,并確保其研究符合所有相關法律法規。關于拓展性使用 (Expanded Access)CT.gov 數據庫同時也提供了關于拓展性使用相關聯系信息。拓展性使用,又可稱為同情使用(Compassionate Use),是指在沒有其他治療選擇、且疾病嚴重或危及生命時,允許未參加臨床試驗患者使用該研究藥物或醫療器械等用于治療,拓展性使用并非適用于所有正在進行的臨床試驗。CT.gov 提供了相關聯系人,供患者必要時聯系。FDA 也明確了拓展性使用的相關規定和要求(https://www.fda.gov/news-events/public-health-focus/expanded-access)。有關 CT.gov 網站數據庫更多詳情介紹,可參考官網(https://clinicaltrials.gov/about-site/about-ctg)查閱。
CT.gov 是一個開放且免費的在線臨床試驗數據庫,公眾可以輕松訪問和利用其中的數據。目前,用戶主要通過兩種方式來下載和使用數據:手動下載和通過 API 自動下載。
手動下載CT.gov 提供了靈活的手動下載功能,允許用戶下載全部數據包或僅下載符合特定篩選條件的數據。支持的文件格式有Json、CSV、RIS、FHIR 等。建議用戶尤其是統計編程人員或數據科學工作者,優先選擇 JSON 格式,因為它支持下載所有包含在數據庫中的字段信息,但后期也多需要一定的程序來處理。相對而言,CSV 格式最多只能下載30個預設字段信息,好處是不需要額外的編程技能即可方便快速使用。
API 接口自動下載CT.gov 還支持通過 API 接口進行程序化自動下載,這種方式更加適合需要定期更新數據或進行大規模數據分析的用戶。API 提供的靈活訪問確保用戶能有效獲取和整合所需數據。下面主要介紹如何通過其提供的 API 接口來獲取相關數據信息,有關 API 的基本知識介紹,可參考前述文章探秘API:解鎖統計編程新時代的鑰匙。
CT.gov API 主要采用 GET 請求方式來為用戶提供數據交換服務,其主接口地址為 https://clinicaltrials.gov/api/v2/,目前最新版本為 2.0.3, 可通過下面API 地址獲取當前 API 最新版本信息:
https://clinicaltrials.gov/api/v2/version
通常,我們使用更多的是與研究項目相關的 API Endpoints, 主要包括下面 5個:
API Endpoint URL | 用途 |
/studies | 用來獲取符合查詢或過濾條件的單個或多個臨床研究項目 |
/studies/{nctId} | 用來獲取某一指定研究編號的臨床項目信息 |
/studies/metadata | 用來返回數據庫表元數據信息,如字段名稱、標簽、類型等 |
/studies/search-areas | 用來獲取構建復雜查詢的字段及其權重信息,詳情請參見:https://clinicaltrials.gov/data-api/about-api/search-areas |
/studies/enums | 獲取數據庫中所有枚舉類型字段值列表,如研究狀態 RecruitmentStatus 值列表,即下圖。 |
獲取 API 數據結構可用字段信息https://clinicaltrials.gov/api/v2/studies/metadata
另外,還有用來獲取數據基本統計信息的3 個 API 接口,包括返回項目 Json 數據大小及其分布、字段值基本描述、列表或數組類型字段值長度描述及分布等。
比如運行 API( https://clinicaltrials.gov/api/v2/stats/field/sizes)將返回下述結果:
從中我們可以了解字段 Phase 中只包括有一個值的研究項目共計 368448 個,包括有兩個值的項目有 21819 個,比如屬于 Phase I / Phase II 聯合設計的項目。
再通過下面的查詢(為方便閱讀,省略了前面 API 主路徑 https://clinicaltrials.gov/api/v2/studies,下同)可以返回所有 size=2的項目信息, 此處用到了該 API 查詢中的高級使用方法 Search Area:
?filter.advanced=AREA[Phase:size]2&countTotal=true
可參考官方 API 使用文檔了解更多詳情(https://clinicaltrials.gov/data-api/api)。
上面對 CT.gov 常用 API 接口類型做了基本的描述,接下來,我們通過幾個具體的查詢實例來幫助大家更快地熟悉它們的主要用法。下面先以最常用的接口 /studies 為例。
????方法:直接調用該 API (https://clinicaltrials.gov/api/v2/studies),不帶查詢或過濾條件參數。
上面是不帶查詢和過濾條件的返回結果,包括所有記錄和字段數據,可以看到截止當前日期共有 509510 條記錄(注:默認返回中不包括 totalCount 值,這里聲明了參數 countTotal 為真以返回該數據)
?countTotal=true
獲取滿足特定查詢條件的臨床試驗信息:
比如,我們想知道羅氏開展的所有臨床試驗信息,可通過參數 query.lead 來指定主要申辦方名稱:
?countTotal=true&query.lead=Roche
如只想返回指定字段信息,可以通過參數 fields 來限定返回字段列表清單,比如 (點擊閱讀全文可快速體驗該查詢結果):
fields=NCTId,BriefTitle,Keyword,LeadSponsor,OverallStatus&countTotal=true&query.lead=Roche
分頁查詢:當 API 返回結果數超過 pageSize 設定(默認值為 10)時,會在返回結果中包括一個 nextPageToken 的參數值,供 API 獲取下一頁數據時參數傳遞時使用。
調用時將該值添加到參數 pageToken 即可返回下一頁數據:
?pageToken=KV1-7ZuCkPYg&countTotal=true有關更多查詢參數設置,可參考官方鏈接 API 介紹:https://clinicaltrials.gov/data-api/api
獲取某一具體臨床試驗信息
?獲取某一具體項目信息可以在 API 主路徑后面直接添加臨床試驗項目編號即可,比如獲取項目?NCT05013879 臨床信息:
https://clinicaltrials.gov/api/v2/studies/NCT05013879
默認會返回該項目所有可用數據,包括方案(ProtocolSection)、結果(ResultsSection)、文檔(DocumentSection)和衍生(DerivedSection)四大部分,每一部分又包括許多模塊內容,信息量非常豐富。通常我們只需要返回指定字段信息,可參照上面示例,通過添加參數 fields 即可,比如,只返回項目編號、標題和關鍵詞:
/NCT05013879?fields=NCTId,BriefTitle,Keyword
API 二次封裝
CT.gov API 提供了非常豐富的數據接口和參數供用戶選擇使用。在某些情況下,我們為方便調用和集成,也可以考慮對原生 API 進行二次封裝,比如下圖所示,只返回部分指定感興趣內容,并取消了原 API 返回數據的多層級信息結構, 返回結果更加直觀,一目了然。
CT.gov 和其它同類型臨床試驗數據庫一樣,作為一個免費的公共資源,對于提高臨床研究透明度,增強公眾信任,避免重復研究,促進科學知識的傳播和健康改善,發揮著越來越大的作用。本文通過對 CT.gov 臨床試驗數據庫內容、結構及其 API 數據接口使用等進行了全面的描述,希望廣大臨床試驗愛好者和相關研究人員,能夠更高效的使用該類型數據庫,更好的應用到我們具體的臨床試驗工作當中,特別是其提供的 API 接口,用戶可以將這些數據自動化地、集成到企業自身的業務場景,服務于具體的業務邏輯,包括但不限于輔助臨床試驗設計、研究基地選擇、受試者招募、洞察臨床研究動態、競爭情報收集以及新藥研發趨勢分析等。我們也會在后續的文章中繼續給大家分享如何基于在線臨床試驗數據庫進行相關的臨床試驗洞察與決策分析。
文章轉自微信公眾號@西鐵房