Commit Graph

20 Commits (94e06338cdf100c24c97ff7ae956f705651c00a9)

Author SHA1 Message Date
zzh 94e06338cd 实现了apply bqsr的单线程版本,结果还有点错误,继续调试 2026-01-03 22:10:46 +08:00
zzh 985875ebac 调整了计算read group的方式,当read group只有一个时,不需要计算 2026-01-01 09:40:46 +08:00
zzh 745963831d 完善了统计时间 2026-01-01 00:41:55 +08:00
zzh 95c4a16151 终于解决了最后的bug,并行结果与串行结果一致,与gatk一致。是index的search interval函数导致的,之前这个函数搜索的区间是包含大于等于start,而且大于等于end,正确的搜索应该是变异的end大于等于start 2025-12-31 23:01:16 +08:00
zzh 65878bbf96 对5.1G的数据,串行结果正确了,并行结果还没测试 2025-12-31 11:16:13 +08:00
zzh 81cbd6831c 又解决了一个bug,忽略了有些read的过滤,把过滤函数放到append_one_bam里就好了,现在发现串行和并行结果还是有点不一致,正在调试 2025-12-30 19:27:28 +08:00
zzh f915461205 解决了两个问题,1. clip导致两端的cigar可能成为D,需要处理,2. start_pos要加上contig,否则导致knowsites计算错误,大数据还是有点问题,得继续调试 2025-12-30 18:04:12 +08:00
zzh d56d926b6e 找到并行的问题了,是kt_for的steal策略,会导致处理的数据的idx小于已经处理过的。保留调试信息,并行结果和串行一致了 2025-12-30 12:48:59 +08:00
zzh 84463ede19 初步并行实现,还没完全 2025-12-30 03:14:05 +08:00
zzh 3815a67618 修改多维数组实现方式,更有利于连续访存,修改reclatable的索引次序 2025-12-30 01:21:13 +08:00
zzh b526306e87 继续重构,小数据结果一致,大数据还是有问题 2025-12-29 23:18:46 +08:00
zzh 1e5a291eb7 重构了一下,大数据问题还没解决 2025-12-29 19:36:38 +08:00
zzh 1864736509 改了一些问题,小数据集结果没问题,但是对于5G的稍微大一些的数据集还是错误 2025-12-29 16:48:55 +08:00
zzh 1cd1a72760 修复了一个bug,把结果代码移除round循环,对于大文件(5G的fastdup-mini)结果不对,差挺多 2025-12-28 23:43:58 +08:00
zzh 6662435948 上一个commit为啥没有包含所有更改文件 2025-12-28 23:06:03 +08:00
zzh 146055fc01 bqsr第一阶段完成了,结果还有点错误,得调试一下 2025-12-28 14:33:45 +08:00
zzh 25f079b936 串行版本还差最后一步,将信息合并到数据汇总表中 2025-12-24 12:47:26 +08:00
zzh 1e9b58fac1 到了读取和解析known vcf部分了,性能还需优化 2025-12-20 16:35:45 +08:00
zzh 0fca937fab 搭建串行框架 2025-12-04 22:26:13 +08:00
zzh e4d26486ef FastBQSR Init 2025-11-23 23:03:37 +08:00