專案規劃
數據分析對任何 NGS 項目都至關重要,因此我們建議研究人員及早作出規劃。對於需要本中心提供生物資訊學支援的研究人員,我們強烈建議您於項目策劃初期便與我們討論相關研究內容,以便評估項目的可行性,並訂立合適的期望及分析方案。
預期情況
我們 免費 的諮詢將有助您決定合適的定序技術(見下表)、讀長(read length)、所需數據量/覆蓋度(throughput/coverage),以及分析方法等。以上各項因素對於解答您的特定科研問題均十分重要。下表列出了一些常見項目及其適合採用的技術方案,惟我們亦歡迎討論其他不同類型的研究項目。 聯絡我們 現在 來一起討論你的專案吧!
| 應用程式 | Illumina定序技術,合成定序 | 單分子即時定序技術(SMRT) | 常見問題 | |
| NovaSeq | MiSeq | PacBio | ||
| 外顯子定序 | +++ | + | - | 外顯子序列中是否有新的突變? |
| RNA定序 | +++ | ++ | + | 我的樣本中哪些基因有差異表達? 我的樣本之間是否有不同的拼接模式? |
| ChIP-Seq | +++ | ++ | - | 我的蛋白質與哪些序列結合? |
| de novo 全基因組定序 | +++ | +++ | +++ | 這種生物的基因組是什麼樣的呢? |
| 重測序 | +++ | +++ | + | 我的分離株細菌/病毒/質粒與常見菌株相比,序列有何差異? |
| 宏基因體學 | +++ | ++ | + | 我的環境樣本中存在哪些微生物? 我的培養皿中有哪些不同的病毒株? |
| 微RNA譜分析 | +++ | ++ | - | 我的樣本中表達了哪些microRNA,或哪些microRNA有差異性表現? |
| 甲基化分析 | +++ | ++ | + | 基因組中哪些位點發生了甲基化? 我的樣本之間甲基化模式是否不同? |

服務收費
大部分生物資訊學分析項目均具有其獨特性,因此服務收費會因應個別項目所需的時間及資源而有所不同。
為了方便預算,在了解您的需求後,我們將盡快向您提供預估費用報價。.
作為一個學術及非牟利性質的核心設施,我們所提供的服務收費,相較於許多其他服務供應商而言,具備相當競爭力。 極具競爭力的價格 與其他許多服務提供者相比。.
*重要的:* 要符合香港大學定價條件,研究人員必須是 香港大學的正式員工 並且必須從 香港大學內部財務帳戶 符合內部調撥條件的資金。所有外部資金流入均需繳交管理費。.
服務選項
在 CPOS,生物資訊學團隊與 NGS 實驗室團隊緊密合作,提供多元化的服務方案,以配合不同研究項目的需求。
除定序運行服務(sequencing run service)外,所有定序數據在交付予使用者前,均會先進行品質控制(QC)檢測。
有關不同應用項目所對應的具體交付內容(deliverables)詳情,請參閱 數據交付物 部分。.
| 服務類型 | CPOS 準備的圖書館? | 序列處理由CPOS負責嗎? | 生物資訊學成果 | ||||
| 原始定序數據 (解復用) | 定序報告 | FastQC報告 | 分析報告及其他交付成果 | 中間分析文件 | |||
| 排序運行服務 | 不 | 是的 | √ | ||||
| 全方位服務 | 是的 | 是的 | √ | √ | √ | ||
| 提供包含標準分析的全方位服務 | 是的 | 是的 | √ | √ | √ | √ | √ |
| 僅進行數據分析 | 不 | 不 | √ | √ |
數據收集概覽
自2022年6月1日起,為方便CPOS用戶全天候擷取數據,所有數據將透過sFTP伺服器提供擷取服務。先前僅在辦公時間內提供的直接將資料傳輸至CPOS HPCF目錄的服務將停止提供。. 所有使用者均可依照以下工作流程透過 sFTP 伺服器下載資料。.
- 資料可用後,使用者將收到電子郵件通知。.
- 使用者將透過電子郵件收到 sFTP 使用者名稱和密碼,解壓縮密碼將透過另一封電子郵件提供。.
- 使用者從 sFTP 伺服器下載資料(請參閱以下說明)。.
- 使用者可以使用以下方式解壓縮檔案: 7zip 或者 WinRAR.
為遵守中心的資料保護方案,分析後的資料會在透過 sFTP 伺服器傳輸前進行壓縮和加密。為增強安全性,存取 sFTP 伺服器的使用者名稱和密碼以及解壓縮檔案的密碼將透過單獨的電子郵件提供。資料可以使用以下命令解壓縮: 7zip 或者 WinRAR. 由於伺服器硬碟空間有限,資料將僅保留一段時間。 1個月 交付完成後,資料將從我們的伺服器中刪除,恕不另行通知。. 請務必妥善保管資料副本(分析結果和所有中間文件),並明確標識,以便日後參考。.
資料收集工作流程

如何從 sFTP 伺服器下載檔案(Windows)
概括
本節介紹如何透過設定和登入來從 sFTP 伺服器傳輸檔案。 Filezilla 客戶 建議使用 FTP 用戶端。如果下載的檔案大小超過 250 GB,則會將其分割成多個檔案。. 請記得下載md5sum文件 在同一資料夾中,以便稍後驗證下載檔案的完整性。由於 Wi-Fi 不穩定,, 不建議使用 Wi-Fi 下載.
程式
- 下載並安裝 FileZilla 用戶端 (https://filezilla-project.org註:請下載 FileZilla 用戶端 但 不是 文件 FileZilla 伺服器.
- 開啟 FileZilla。輸入以下資訊: 快速連接 位於窗戶頂部的橫桿。.
- 主持人:您指定的主機
- 使用者名稱:您提供的用戶名
- 密碼您提供的密碼
- 連接埠號: 22
(以上資訊可從生物資訊團隊發送的電子郵件中取得)

- 點選 快速連接 或按 進入 連接到伺服器。.

- 首次登入時,點選 好的 接受關於未知主機金鑰的安全性憑證。.

- 點擊您想要下載的文件 sFTP伺服器 (右側視窗),然後將檔案移到目標位置。 你的電腦 (左側視窗)。請注意,在拖放操作過程中,您需要按住滑鼠按鈕。.

- 將檔案「拖放」到 你的電腦, 您會看到文件傳輸正在進行中(請參閱下方截圖)。請耐心等待檔案傳輸完成,大檔案傳輸可能需要一些時間。請注意,括號中的數字表示要傳輸的檔案數量。.

- 檔案傳輸成功完成後,您將在「成功傳輸」標籤中看到數字(請參閱下方螢幕截圖)。請注意,括號中的數字表示成功傳輸的檔案數量。.

- 您可以關閉 FileZilla 用戶端 當所有檔案下載成功後,使用 md5sum 驗證下載的檔案(請參閱下一節)。. 請務必仔細按照以下步驟操作,以確認下載是否成功。.
如何查看下載檔案的md5sum值(Windows)
概括
本節介紹如何使用 MD5(訊息摘要演算法 5)雜湊值來驗證下載檔案的完整性。 WinMD5免費版.
程式
- 下載並解壓縮 WinMD5免費版 (http://www.winmd5.com).
- 打開 WinMD5.exe 在解壓縮後的資料夾中。.
- 點選 瀏覽 選擇您從 sFTP 伺服器下載的 zip 文件,MD5 校驗和值將被計算並顯示。 目前文件 MD5 校驗和值. 請耐心等待,處理大文件可能需要一段時間(最多一個小時或更久)。.

- 開啟從 sFTP 伺服器下載的 md5sum 文件 記事本. 複製 MD5校驗值 並貼到 原始文件 MD5 校驗和值 在 WinMD5免費版, 然後點擊 核實.
記事本:

WinMD5Free:

- 會彈出一個視窗顯示“匹配成功!”如果從 sFTP 伺服器下載成功,則表示「」。“未匹配!”如果顯示“”,請從我們的 sFTP 伺服器重新下載檔案。.

- 確認檔案下載成功後,如果需要,可以使用 7-zip 解壓縮檔案(請參閱下一節)。.
如何解壓縮從 sFTP 伺服器下載的受密碼保護的檔案(Windows)
概括
本節介紹如何使用以下命令解壓縮從我們的 sFTP 伺服器下載的受密碼保護的檔案。 7-Zip. 請務必在嘗試解壓縮檔案之前下載所有拆分的壓縮檔案。.
警告:請確保您有足夠的磁碟空間來存放所有未壓縮的資料。.
程式
- 下載並安裝 7zip (http://www.7-zip.org).
- 右鍵單擊從 sFTP 伺服器下載的 zip.001 文件,然後選擇“轉到”。 7-Zip 點選 在此處擷取.

- 將會彈出一個視窗要求輸入密碼。請輸入我們透過電子郵件提供的密碼,然後點擊。 好的.

- 解壓縮後的資料夾將被提取到與原始檔案相同的位置。. 請注意,只需解壓縮 zip.001 文件,其餘的 zip 檔案(如有)將被解壓縮到一個資料夾中。.
如何從 sFTP 伺服器下載檔案(CPOS HPCF / Linux)
概括
本節介紹如何使用命令列從 sFTP 伺服器傳輸檔案。如果下載的檔案大小超過 250 GB,則會將下載的檔案分割成多個檔案。. 請記得下載md5sum文件 在同一資料夾中,以便稍後驗證下載檔案的完整性。由於 Wi-Fi 不穩定,, 不建議使用 Wi-Fi 下載. *有關 CPOS HPCF 的更多信息,請訪問 CPOS HPCF 部分.
命令

輸出

文件傳輸完成後,您將看到傳輸百分比變為 100%. 然後,您可以使用 md5sum 驗證下載的檔案(請參閱下一節)。. 請務必仔細按照以下步驟操作,以確認下載是否成功。.
如何檢查下載檔案的md5sum值(CPOS HPCF / Linux)
概括
本節介紹如何使用命令列透過 MD5(訊息摘要演算法 5)雜湊值來驗證下載檔案的完整性。.
命令

輸出

確認檔案下載成功後,如有需要,您可以使用 7-zip 解壓縮檔案(請參閱下一節)。如果您收到「md5sum: 警告: 1 個計算出的校驗和不符」的錯誤訊息,則可能是由於從我們的 sFTP 伺服器下載失敗而導致檔案損壞。請重新從我們的 sFTP 伺服器下載該檔案。.
如何解壓縮從 sFTP 伺服器下載的受密碼保護的檔案(CPOS HPCF / Linux)
概括
本節介紹如何使用以下命令解壓縮從我們的 sFTP 伺服器下載的受密碼保護的檔案。 7-Zip. 請務必在嘗試解壓縮檔案之前下載所有拆分的壓縮檔案。.
警告:請確保您有足夠的磁碟空間來存放所有未壓縮的資料。.
命令

輸出

解壓縮完成後,您將看到以下訊息:“一切都好”,然後你會發現一個解壓縮後的資料夾被提取到與原始檔案相同的位置。. 請注意,只需解壓縮 zip.001 文件,其餘的 zip 檔案(如有)將被解壓縮到一個資料夾中。.
如何使用一體化下載工具 (CPOS HPCF) 從 sFTP 伺服器下載、檢查 md5sum 值並解壓縮受密碼保護的文件
概括
本節介紹如何使用一體化下載工具(cpos-sftp2hpcf該工具只需一條命令即可自動從我們的 sFTP 伺服器下載資料、檢查 md5sum 值並解壓縮 CPOS HPCF 中的密碼保護檔案。請注意,啟動該工具前需要一個設定檔。.
警告:請確保您有足夠的磁碟空間來存放所有未壓縮的資料。.
入門
可以下載 cpos-sftp2hpcf 在此 [MD5:daa5216087760ffb30b1cfe3653cde62],也可在 CPOS HPCF 的「/software/cpos-sftp2hpcf/1.0/」中找到。.
如果您使用的是下載的 cpos-sftp2hpcf 版本,請解壓縮並按照以下說明操作。.
程式
- 準備一個設定檔(例如“cpos-sftp2hpcf_example.yaml”)
- 範例配置可以在 cpos-sftp2hpcf 的腳本目錄中找到。.
- 範例配置可以在 cpos-sftp2hpcf 的腳本目錄中找到。.
- 在主節點上啟動該工具
- 命令

- 輸出
- 標準輸出:

- 文件被傳輸到專用伺服器。 cpos_sftp2hpcf_session_* 目錄。文件傳輸完成後,您將看到傳輸百分比變為 100%, 並且 PBS 作業會自動提交到計算節點以檢查 md5sum 和解壓縮。.
- log.cpos-md5sumN7za.*.o*

- PBS作業完成後,您將看到以下訊息:“: 好的”用於 md5sum 檢查和“一切都好”用於解壓縮。解壓縮後的檔案將被提取到專用資料夾。 cpos_sftp2hpcf_session_* 目錄。如果您選擇保留下載的文件,您也會在與解壓縮檔案相同的位置找到下載的檔案。.
典型交付成果
根據定序技術、專案類型和所需的生物資訊學支援程度,最終交付成果會有所不同。通常包括:
- 定序報告 (MS Word 文件)-一份記錄定序工作執行情況的書面報告。.
- FastQC報告 (HTML 檔案)-由 NGS 資料品質控制工具產生的報告,可在 Web 瀏覽器上檢視(僅限 Illumina 定序訪問 作者網站 詳情請見下文。.
- 分析報告 和 結果 (多種文件類型)-報告總結了分析的資料和所應用的分析流程。此外,還包括特定項目的分析結果文件(見下表)。.
- 中間分析文件 (各種文件類型)-分析過程中建立的文件,例如 Fastq 格式的過濾後的高品質 reads。交付成果取決於專案類型(見下表)。.
請在下方選擇定序技術類型,以查看交付成果。.
WP表格產生器
Illumina NovaSeq / MiSeq 定序 – 根據專案類型而定的特定交付成果
對於超出我們常規分析流程(標準交付成果)的分析需求,我們可以提供客製化協助(客製化交付成果)。請注意,以下清單並非所有可能交付成果的完整清單。如果您找不到所需內容,請與我們聯絡。最終交付成果需經CPOS與用戶雙方協商一致。.
| 項目類型 | 標準交付成果 | 客製化交付物 |
| RNA定序(mRNA) | - BAM 格式的比對文件 - 基因/轉錄本表達水平文件(MS Excel格式) - *差異表達基因/轉錄本清單(MS Excel格式)(包含與Partek Flow的整合,用於下游路徑分析) - 主成分分析圖(HTML格式,至少2個樣本) *每個送測樣本均包含 1 個成對比對。歡迎進行更多比對,詳情請與我們聯絡。. | - 以 MS Excel 格式提供的帶註釋的 SNP/INDEL 列表 - MS Excel 格式的替代剪接模式 - MS Excel 格式的融合基因文件 - MS Excel 格式的新型外顯子文件 - 其他(開放討論) |
| RNA定序(miRNA) | - BAM格式的比對文件(已知miRNA) - BAM 格式的比對文件(與其他已知 RNA,例如 snRNA、snoRNA 等) - MS Excel 格式的 miRNA 表達水平文件 - *差異表達的miRNA清單(MS Excel格式) *每個送測樣本均包含 1 個成對比對。歡迎進行更多比對,詳情請與我們聯絡。. | miRNA標靶預測 - MS Excel 格式的新型 miRNA 文件 - 其他已知RNA的表達水平 - 其他(開放討論) |
| ChIP-Seq | - BAM 格式的比對文件 - Excel格式的峰值列表 - Excel格式的註解峰列表 - BigWig 檔案用於在整合基因組瀏覽器 (IGV) 中可視化峰值 *每個送測樣本均包含 1 個成對比對。歡迎進行更多比對,詳情請與我們聯絡。. | - 其他(開放討論) |
| 人類外顯子定序 | - BAM 格式的比對文件 - 標準 VCF 格式的 SNP / INDEL 文件 - MS Excel 格式的附註釋 SNP / INDEL 檔案列表 *請點擊 在此 針對我們用於分析的目標檔案。. | - 以 MS Excel 格式提供的帶註釋的體細胞 SNP/INDEL 列表 - 針對 PHIAL 的 MS Excel 格式註釋 - 其他(開放討論) |
| 人類全基因組定序 | - BAM 格式的比對文件 - 標準 VCF 格式的 SNP / INDEL / CNV / SV 文件 - 以 MS Excel 格式提供的帶註釋的 SNP / INDEL / CNV / SV 文件列表 *分析將使用DRAGEN平台進行。. *進行體細胞拷貝數變異(CNV)檢測時,需要配對的正常樣本。請聯絡我們以了解更多詳情。. | - 其他(開放討論) |
| 亞硫酸氫鹽測序 | - BAM格式的序列比對檔案(如適用,包括人類和Lambda噬菌體) - 文字/Excel格式的註解CpG甲基化位點列表 - Lambda 的亞硫酸氫鹽轉化率(如適用) | - 其他(開放討論) |
| de novo 基因組定序 | - de novo 各種格式的組裝檔案(原始檔案和重疊群) - 文字格式的預測編碼基因文件 - 文字格式的註釋編碼基因列表 - 文字格式的重複項列表 - 非編碼RNA清單(文字格式) | - 用於基因組可視化的 Circos 圖 - 其他(開放討論) |
| de novo 轉錄組定序 | - de novo 各種格式的組裝檔案(原始檔案和重疊群) - FASTA格式的成績單列表 - 附註解的成績單清單 (GO)(Excel 格式) - 基因/轉錄本表達量(Excel格式) - *差異表達基因/轉錄本清單(Excel格式) *每個送測樣本均包含 1 個成對比對。歡迎進行更多比對,詳情請與我們聯絡。. | - 其他(開放討論) |
| 宏基因體定序 (全基因組鳥槍法) | - de novo 各種格式的組裝檔案(原始檔案和重疊群) - BLAST 檔案(原始格式),採用 BLAST 原生格式 分類樹 - 種組成(Excel格式) | - 其他(開放討論) |
| 宏基因體定序 (16s放大器) | - FASTA格式的合併雙端定序數據 - BIOM 格式的 OTU 表 - *分類概要 - *Alpha多樣性(樣本組內多樣性)的結果 - *Beta多樣性分析結果(樣本組間多樣性比較) - *Excel格式的差異OTU列表 *每個項目均包含6組間對比。歡迎提供更多比較數據,詳情請與我們聯絡。. | - 其他(開放討論) |
奈米孔測序-基於專案類型的具體交付成果
對於超出我們常規分析流程(標準交付成果)的分析需求,我們可以提供客製化協助(客製化交付成果)。請注意,以下清單並非所有可能交付成果的完整清單。如果您找不到所需內容,請與我們聯絡。最終交付成果需經CPOS與用戶雙方協商一致。.
| 項目類型 | 標準交付成果 | 客製化交付物 |
| de novo 基因組定序 | - de novo 各種格式的組裝檔案(原始檔案和重疊群) - 文字格式的預測編碼基因文件 - 文字格式的註釋編碼基因列表 - 文字格式的重複項列表 - 非編碼RNA清單(文字格式) | - 用於基因組可視化的 Circos 圖 - 其他(開放討論) |
| 長程結構變異 | - BAM 格式的比對文件 - 結構變異清單(Excel格式) | - 其他(開放討論) |
下載
除了 CPOS 自行開發的分析流程(analysis pipelines)外,我們亦累積了多項可應用於不同類型數據分析的資源。為方便其他生物資訊學研究人員使用,這些資源將會透過本網站提供。
外顯子組標靶區域
該 BED 檔案是透過合併目標區域(target regions)及探針區域(probe regions,由供應商提供)後生成,並在此基礎上加入 200bp 的延伸區域(padding),即上游 100bp 及下游 100bp。由 hg19 轉換至 hg38 的過程是使用 UCSC Genome Browser Utilities 中的 Batch Coordinate Conversion(liftOver)工具完成。相關流程如下所示:已加入 padding 的合併區域 BED 格式檔案可按以下連結下載:
已加入 padding 的合併區域 BED 格式檔案可按以下連結下載:
SeqCap EZ Exome + UTR
[ hg19 MD5:46e945f4681f27614cfcf69d506ad99f ] [ hg38 MD5:87f959fddb74817eb295c8543232bb10 ]
原始的目標區域及探針區域檔案可供下載 在此 [MD5:9819b85a5a701d8e53d9184991b719cc]。.
xGen外顯子組研究面板 v1.0
[ hg19 MD5:80d1c373f3c4c2cd29c80d49fbe51be0 ] [ hg38 MD5:8d70e2dc94d1c564cd1a4acfd0f134b0 ]
原始的目標區域及探針區域檔案可供下載 在此 [MD5:1408942505230683c79955ddaae90e46]。.
xGen外顯子組雜交試劑盒v2
[ hg19 MD5:a24429d5d1eb997b7e93bcbe8779d99c ] [ hg38 MD5:de730ca0297d3f4a95ab7c0cacfb4a35 ]
原始的目標區域及探針區域檔案可供下載 在此 [MD5:cc4d01e2a322bdcee011222f4f4e7bf9]。.
服務條款
在CPOS,我們致力於為您的資料集應用最合適的分析方法,並在專案啟動前對每個分析步驟進行周密規劃。 CPOS提供免費諮詢服務,包括對合適的分析方法和工具的建議,因此我們強烈建議用戶提前與我們溝通。我們將本著誠信原則,基於我們的專業知識提供建議,但無法對最終選擇的最合適分析方法承擔全部責任。 CPOS分析團隊和專案負責人應在充分理解的基礎上達成共識,共同承擔責任。.
數據處理
所有資料均儲存在連網儲存磁碟機上,並定期備份,但CPOS不負責無限期地儲存資料。 CPOS生物資訊學核心儲存的所有資料(原始資料、分析結果和所有中間檔案)都可能被刪除。 1個月 在未事先通知的情況下將資料傳輸給用戶。. 建議使用者保留一份安全、識別清晰、永久保存的資料集副本。.
認可 / 作者
如您的研究發表使用了由本中心產生的數據,我們衷心感謝您於論文中鳴謝泛組學科學中心(Centre for PanorOmic Sciences, CPOS)。如本中心於研究過程中提供了重要的學術及知識性貢獻,我們亦認為適合將相關人員列為共同作者。適當的鳴謝與認可,有助反映本中心工作的學術影響力,並支持中心持續提供受資助服務。謹此致謝。
聯絡我們
bioinfo.cpos@hku.hk
核心設施
地址
六樓
香港賽馬會大樓
跨學科研究
沙遜路5號
香港薄扶林
電話:2831-5500
傳真:2818-5653
網址:https://staging1.cpos.hku.hk
電子郵件: enquiry.cpos@hku.hk
辦公時間
週一至週五:上午9:00 – 下午5:30
下午1點至2點不提供樣品及貨物接收服務
週六、週日及所有大學及公共假日休館。.




