腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
用于列归一
化
的
cuda
内核
(分段缩减)
、
我正在将一些代码移植到GPU上,并且我已经实现了大部分代码,除了我
的
算法
需要执行列归一
化
步骤(或者它应该在没有它
的
情况下
算法
也可以工作,但为了
算法
的
稳定性,最好是进行归一
化
)。我正在努力想出实现这一点
的
最好方法。我已经有了一个
内核
,它可以进行归约,所以我可以重用它来获得列总和。列
的
数量可以少到几千个元素
的
几十个列,多到几千个列,每个列都有几千个元素。如果我在每一列上反复调用缩减<e
浏览 6
提问于2012-08-23
得票数 1
回答已采纳
2
回答
隐马尔可夫模型
的
并行前向-后向
算法
、
、
作为一个辅助项目,我想为我
的
NVidia显卡实现一个隐马尔可夫模型,这样我就可以让它快速执行并使用多个
内核
。谢谢, mj
浏览 6
提问于2012-02-27
得票数 1
1
回答
将磁盘上
的
inode读取到内存中
、
、
、
我相信有两种类型
的
inode磁盘上和
内核
inode(fs.h中
的
结构inode)。磁盘上inode是基于文件系统实现
的
。我试着理解基本
的
概念,并有几个问题- 能告诉我读取/复制磁盘inode到inode inode
的
代码(或者遍历步骤)吗?也就是说,当
内核
inode被创建时,它必须是从磁盘inode中创建
的
.那么,这是如何发生
的
呢?为什么
内核
inode不存储指向磁盘inode
的
指针?,如果
浏览 1
提问于2011-02-11
得票数 8
回答已采纳
1
回答
核PCA约简
的
核参数和超参数
的
选择
、
我在读一种方法是训练一个有监
浏览 1
提问于2018-11-30
得票数 2
回答已采纳
3
回答
蒙德里安笔画
的
再创作
、
下午好,
娱乐
活动可以使用实际
的
颜色,也可以用来自Windows默认16色调色板.
的
适当颜色替换。您
的
娱乐
活动可以在PNG、BMP或NetPBM中输出,可以输出到文件或STDOUT,也可以直接输出到屏幕。你
的
娱乐</
浏览 0
提问于2013-09-21
得票数 23
2
回答
对于自定义TCP服务中缓冲区
的
使用和调优,有哪些建议?
、
、
、
我可以理解
app
/lib对读取缓冲区
的
使用:
app
/lib从
内核
缓冲区读入应用程序缓冲区,应用程序对数据进行处理(例如,对其中
的
消息进行反序列
化
)。 但是,我对写缓冲区
的
需要/使用感到困惑。为什么不直接写到
内核
的
发送/写缓冲区呢?这是为了避免系统调用(写)
的
开销吗?我认为关键在于,当
内核
通知
app
/lib套接字是“可写
的
浏览 8
提问于2010-01-22
得票数 2
2
回答
为什么GPU比CPU更强大
、
如果是这样的话,为什么不能用与GPU相同
的
方式设计CPU,使其速度更快呢?
浏览 0
提问于2011-06-22
得票数 74
回答已采纳
1
回答
与MATLAB相比,使用cuSolver时SVD非常慢。
、
、
、
、
我正在尝试使用来自gesvd
的
cuSOLVER函数,我发现它比MATLAB中
的
svd函数慢得多,无论是使用double数组还是使用gpuArray。**使用svd函数
的
Matlab代码*A = rand(64, 64) + eye(64);[~, ~, ~] = svd(A);fprintftime: %f ms\n', t*1000); % >> CPU time: 0.947754 ms % >> GPU time: 2.
浏览 0
提问于2017-01-20
得票数 3
回答已采纳
2
回答
在Thrust::device_vectors函子中创建__host__ __device__函子
、
、
、
我目前正在尝试并行
化
目前在一个主要函数中顺序运行
的
推力cuda代码(因此不能利用GPU
的
能力)。实际上,我已经将函数式代码转换成函式,thrust::for_each可以使用库达流来调用函式。但是,如果我定义函子时使用VS2013抛出各种各样
的
警告,表示我正在尝试从设备上启动主机功能。它特别引用了thrust::device_malloc_allocator
的
问题。如果我将函子定义
为
严格
的
宿主函子,那么这些错误都会消失,但是当
浏览 5
提问于2016-07-22
得票数 1
回答已采纳
2
回答
CUDA :具有公共(共享)参数
的
内核
并发性
数据自动
化
系统代码看起来像(k0和k1是在专用流stri中启动
的
):k1<<<..., str[1]>>>(arg4, arg2
内核
是而不是重叠:这与公共参数(arg2)有关吗?如果是,在这种情况下,如何使
内核
相互重叠?我使用开普勒K20m: 计算能力
为
3.5。该
算法
总是访问数据,因此我希望它具有很高
的
带宽限
浏览 2
提问于2015-06-08
得票数 0
1
回答
在16 on
的
拇指驱动器上运行Ubuntu
、
、
、
、
我是全新
的
-一个Ubuntu转换-到目前为止,我已经能够找到如何将操作系统刻录到DVD,以及我如何可以让它在一个拇指驱动器。我甚至把这两件事都解决了。然而,我关心
的
是:我能否继续只通过我
的
拇指驱动器运行Ubuntu,如果是的话,当我得到屏幕告诉我我可以“尝试Ubuntu”或者安装它,我可以选择哪一个?我只做了前者
的
选择,但是如果我做了后者,我是要擦除我
的
comp,还是它实际上只安装在拇指驱动器上?我想我在想,我是否可以把我
的
拇指驱动器当作一个外部硬盘,把它放在那里,这样我就可以在我想要<
浏览 0
提问于2014-02-18
得票数 1
1
回答
将linux
内核
实现为路由器
、
、
、
、
我正在尝试在Linux
内核
中实现一个路由
算法
。即当Linux主机被配置
为
充当路由器时。是否可以将路由
算法
添加到
内核
代码库中,并像在大多数
内核
服务中一样注册它?比如创建我们自己
的
调度策略,注册usb设备等等? 提前谢谢你,Binoy
浏览 6
提问于2014-01-30
得票数 0
1
回答
从CUDA设备函数/
内核
中并行
化
方法
、
、
、
、
我有一个已经并行
的
CUDA
内核
,它执行一些需要频繁插值
的
任务。__global__ void complexStuff(...)该插值
算法
在三维上连续进行WENO插值。这是一个高度并行
的
任务,我迫切地想要并行
化
! 很明显,通过使用complexStuff()语法从主机代码调用
内核
<<<...>>>,可以很容易地并行
化
它。同样重要
的
是,complexStuff()已
浏览 5
提问于2014-01-29
得票数 0
回答已采纳
1
回答
以
分布式或顺序方式工作
的
算法
的
术语
、
、
、
、
我正在研究一种
算法
,该
算法
可以细分大型数据问题,并跨多个节点对其执行工作。如果每个细分都知道关于其周围细分
的
有限数量
的
信息,则可以修改问题
的
每个细分
的
局部解
以
匹配全局解。这可以通过每个分区之间固定数量
的
通信来实现,从而允许几乎令人尴尬
的
并行解决方案。然而,最后
的
结果是,如果问题是在单个
内核
上执行
的
,那么每段数据只需要加载固定
的
次数,无论问题
的
大小
浏览 0
提问于2016-04-20
得票数 2
2
回答
如何使用本身是外键
的
字段获取Django模型
的
对象列表?
、
、
目前,我
的
模特看起来是这样
的
: main_category = models.CharField(max_length = 25
以
保持所有的分离和可访问
的
独立。因此,有些文章
的
主要分类是“
娱乐
”。也就是说,self.category.main_category =‘
娱乐
’。我
的
问题是,如何获得所有具有相同main_category
的
文章?我试过Article.
浏览 4
提问于2015-09-20
得票数 1
回答已采纳
2
回答
在CUDA
内核
中声明变量
假设在CUDA
内核
中声明了一个新变量,然后在多个线程中使用它,如下所示:int i = blockIdx.x* blockDim.x + threadIdx.x;a = delt[i] + deltb[i];}int threads在初始
化
每个线程时,是否
为
它们创建了一个新
的
"a“? 或者每个线程会在未知<em
浏览 3
提问于2013-07-29
得票数 5
回答已采纳
2
回答
“良好并行
化
”
算法
不会被多线程加速。
背景:,我在和我
的
一个在计算机科学研究领域工作
的
朋友交谈。我大部分是临时开发
的
,所以我对大多数CS概念
的
理解都是在功能层面(我知道如何使用它们,而不是它们是如何工作
的
)。他说,将运行在单个线程上
的
“良好并行
化
”
算法
转换为运行在多个线程上
的
算法
并不会带来他预期
的
处理速度
的
提高。 推理:我问他运行这个
算法
的
计算机
的
体系结构是什么,他
浏览 4
提问于2013-01-24
得票数 0
1
回答
Cuda::Entry函数使用了过多
的
本地数据
、
我试图在Tesla C2075上运行一个多边形相交
算法
,但当我试图编译这个
算法
时,编译器给了我错误:"Entry Function 'Polygon_Intersection'uses too much我
的
算法
有点复杂,它利用了
内核
中
的
大量局部变量。所以我
的
问题是,有没有办法解决这个问题,比如我可以为每个
内核
的
局部变量声明使用全局内存,或者
以
某种方式使用共享内存?
浏览 0
提问于2012-07-18
得票数 1
回答已采纳
1
回答
内核
在引导时无限期挂起
、
、
、
我已经用linux slob allocator对
内核
进行了配置
以
实现最佳匹配
算法
。我构建并安装了
内核
映像,以便下次可以从它引导。现在,当我尝试引导这个
内核
时,它会无限期地挂起,光标甚至不会闪烁。我想知道一些
内核
调试技巧,它们可以帮助我解决这个问题或一些好
的
读物。我也配置了kdb,但不知道如何在这种情况下使用它。任何帮助都是值得
的
!!其他详细信息: 我修改了slob_page_alloc函数以实现best-fit
算法
,该
算法<
浏览 2
提问于2012-11-02
得票数 1
2
回答
帮助组织我
的
数据来解决这个机器学习问题
、
、
、
我想把推特归类在一组特定
的
类别中,如{“体育”、“
娱乐
”、“爱”}等等。在体育和
娱乐
(“我在看比赛”和“我在看我最喜欢
的
节目”)中,“手表”这个词经常出现在...Therefore上,我至少把它缩小到了这两个类别。但是“游戏”这个词在<
浏览 3
提问于2010-12-28
得票数 3
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
一众以算法为内核的娱乐化APP是如何毁掉我们的
以“稳健+开拓”为内核,志高空调谋求专业化制胜
以深度学习算法为基的智能机器视觉检测系统
心遇app:以同城为媒,寻觅知己的社交平台
95后孕妇不顾胎儿安危,直播喝酒,网络娱乐的代价以伤害娃为基础
热门
标签
更多标签
云服务器
ICP备案
对象存储
即时通信 IM
实时音视频
活动推荐
运营活动
广告
关闭
领券