首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >在数据帧之间的距离和id之外创建数据帧

在数据帧之间的距离和id之外创建数据帧
EN

Stack Overflow用户
提问于 2018-07-13 02:01:13
回答 4查看 70关注 0票数 0

我将尝试解释我目前使用的是什么:我有两个数据帧:一个用于加油站A (165个加油站),另一个用于加油站B (257个加油站)。它们都使用相同的格式:

代码语言:javascript
运行
复制
id    Coor
1    (a1,b1)
2    (a2,b2)

Coor具有位置坐标的元组。我想做的是向Dataframe A添加3列,其中最接近的竞争对手#1、#2和#3 (来自加油站B)。目前,我设法获得了从A到B的每一个距离(42405个距离度量),但是是以列表的形式:

代码语言:javascript
运行
复制
distances=[]
for (u,v) in gasA['coor']:
    for (w,x) in gasB['coor']:
        distances.append(sp.distance.euclidean((u,v),(w,x)))

这让我有了我需要的值,但我仍然需要将它们与加油站A的ID进行匹配,并获得前3名。我怀疑使用列表不是最好的方法。你有什么建议吗?

编辑:按照建议,前5行是:在GasA中:

代码语言:javascript
运行
复制
id           coor
60712    (-333525363206695,-705191013427772)
60512    (-333539879388388, -705394161580837)
60085    (-333545609177068, -703168832659184)
60110    (-333601677229216, -705167284798638)
60078    (-333608898397271, -707213099595404)

在GasB中:

代码语言:javascript
运行
复制
    id           coor
70174    (-333427160000000,-705459060000000)
70223    (-333523030000000, -706705470000000)
70383    (-333549270000000, -705320990000000)
70162    (-333556960000000, -705384750000000)
70289    (-333565850000000, -705104360000000)
EN

回答 4

Stack Overflow用户

回答已采纳

发布于 2018-07-13 03:38:11

代码语言:javascript
运行
复制
from sklearn.metrics.pairwise import euclidean_distances
import numpy as np

创建数据:

代码语言:javascript
运行
复制
 A = pd.DataFrame({'id':['60712','60512','60085', '60110','60078'], 'coor':[ (-333525363206695,-705191013427772),\
                                                                           (-333539879388388, -705394161580837),\
                                                                           (-333545609177068, -703168832659184),\
                                                                           (-333601677229216, -705167284798638),\
                                                                          (-333608898397271, -707213099595404)]})
B = pd.DataFrame({'id':['70174','70223','70383', '70162','70289'], 'coor':[ (-333427160000000,-705459060000000),\
                                                                               (-333523030000000, -706705470000000),\
                                                                               (-333549270000000, -705320990000000),\
                                                                                (-333556960000000, -705384750000000),\
                                                                              (-333565850000000, -705104360000000)]})

计算距离:

代码语言:javascript
运行
复制
res = euclidean_distances(list(A.coor), list(B.coor))

从B中选择最接近的3个桩号,并附加到A中的列:

代码语言:javascript
运行
复制
d = []
for i, id_ in enumerate(A.index):
    distances = np.argsort(res[i])[0:3] #select top 3
    distances = B.iloc[distances]['id'].values
    d.append(distances)
A = A.assign(dist=d)

编辑

示例运行结果:

代码语言:javascript
运行
复制
   coor id  dist
0   (-333525363206695, -705191013427772)    60712   [70223, 70174, 70162]
1   (-333539879388388, -705394161580837)    60512   [70223, 70289, 70174]
2   (-333545609177068, -703168832659184)    60085   [70223, 70174, 70162]
3   (-333601677229216, -705167284798638)    60110   [70223, 70174, 70162]
4   (-333608898397271, -707213099595404)    60078   [70289, 70383, 70162]
票数 0
EN

Stack Overflow用户

发布于 2018-07-13 02:12:00

你可以这样做。

代码语言:javascript
运行
复制
a = gasA.coor.values
b = gasB.coor.values 

c = np.sum(np.sum((a[:,None,::-1] - b)**2, axis=1), axis=0)

我们可以得到两个坐标的numpy数组,然后广播a来表示它的所有组合,然后取欧几里得距离。

票数 0
EN

Stack Overflow用户

发布于 2018-07-13 02:23:18

定义一个函数来计算从A到所有B的距离,并返回具有三个最小距离的B的索引。

代码语言:javascript
运行
复制
def get_nearest_three(row):
    (u,v) = row['Coor']
    dist_list = gasB.Coor.apply(sp.distance.euclidean,args = [u,v])
    # want indices of the 3 indices of B with smallest distances
    return list(np.argsort(dist_list))[0:3]

gasA['dists'] = gasA.apply(get_nearest_three, axis = 1)
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/51311894

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档