Расстояние Евклида (Euclid distance)
Расстояние Евклида — это геометрическое расстояние в многомерном пространстве. Оно вычисляется по теореме Пифагора.
Пусть в n-мерном пространстве заданы две точки: p ( p 1 , p 2 , . . . p n ) и q ( q 1 , q 2 , . . . q n ) . Тогда евклидово расстояние между ними вычисляется по следующей формуле:
d p q = √ n ∑ i = 1 ( p i − q i ) 2 ,
Например, расстояние Евклида между двумя точками a ( x a , y a , z a ) и b ( x b , y b , z b ) в 3-мерном пространстве ( X Y Z ) рассчитывается по формуле:
d a b = √ ( x a − x b ) 2 + ( y a − y b ) 2 + ( z a − z b ) 2 .
Евклидово расстояние является наиболее понятной и интерпретируемой мерой различия или близости объектов, представленных векторами признаков в многомерном пространстве, отражая интуитивные свойства расстояния между точками. Поэтому оно широко используется в анализе данных в качестве критерия для объединения наблюдений в классы и кластеры, оценки ошибок в предсказательной аналитике, а также в инструментах визуализации (например, картах Кохонена).
Что такое евклидово расстояние между векторами
- Главная
- Теоретические основы
- Отраслевые порталы
- Кластеры знаний
- Электронный учебник
- Книги
- Словари
Уважаемые посетители Портала Знаний, если Вы найдете ошибку в тексте, выделите, пожалуйста, ее мышью и нажмите Сtrl+Enter. Мы обязательно исправим текст!
Евклидово расстояние
Евклидово расстояние является геометрическим расстоянием в многомерном пространстве.
Евклидово расстояние между точками x и y в n-мерном пространстве вычисляется по следующей формуле:
Заметим, что евклидово расстояние (и его квадрат) вычисляется по исходным, а не по стандартизованным данным.
Можно подумать о независимых переменных (в регрессионном уравнении), как об определяющих многомерное пространство, в котором может быть построено каждое наблюдение.
Расчет евклидова расстояния с помощью NumPy
Евклидово расстояние — это фундаментальная метрика расстояния, относящаяся к системам в евклидовом пространстве.
- Евклидово пространство — это классическое геометрическое пространство, с которым вы знакомитесь на уроке математики, обычно связанное с 3 измерениями. Хотя его также можно приписать к любой неотрицательной целочисленной размерности.
- Евклидово расстояние — кратчайшая прямая между двумя точками в евклидовом пространстве.
Название происходит от Евклида, который широко известен как «отец геометрии», так как это было единственное пространство, которое люди в то время обычно задумывали. Со временем в физике и математике наблюдались различные типы пространства, такие как пространство Аффин.
- В 3-мерном евклидовом пространстве кратчайшая прямая между двумя точкамивсегдабудетпрямой линиеймежду ними.
Учитывая этот факт, евклидово расстояние не всегда является наиболее полезной метрикой для отслеживания при работе со многими размерностями, мы сосредоточимся на 2D и 3D евклидовом пространстве для расчета евклидова расстояния.
Вообще говоря, евклидова расстояние широко используется в разработке 3D-миров, а также алгоритмов машинного обучения, которые включают в себя метрики расстояния, такие как K-ближайшие соседи. Как правило, евклидово расстояние будет представлять, насколько похожи две точки данных, предполагая, что некоторая кластеризация на основе других данных уже была выполнена.
Математическая формула
Математическая формула расчета евклидова расстояния между 2 точками в 2D пространстве:
Формула легко адаптируется к 3D-пространство, а также к любому размеру:
Общая формула может быть упрощена до:
Острый глаз может заметить сходство между евклидовым расстоянием и теоремой Пифагора:
На самом деле существует связь между ними — евклидовое расстояние рассчитывается с помощью теоремы Пифагора, учитывая декартовы координаты двух точек.
Из-за этого евклидова расстояние иногда называют расстоянием Пифагора, хотя прежнее название гораздо более известно.
Примечание: Две точки являются векторами, но выход должен быть скалярным.
Мы будем использовать NumPy для расчета этого расстояния для двух точек, и один и тот же подход используется для 2D и 3D пространств:
import matplotlib.pyplot as plt from mpl_toolkits.mplot3d import Axes3D fig = plt.figure() ax = fig.add_subplot(111, projection = '3d') ax.scatter(0, 0, 0) ax.scatter(3, 3, 3) plt.show()
Расчет евклидова расстояния в Python с помощью NumPy
Во-первых, нам нужно будет установить библиотеку NumPy:
$ pip install numpy
Теперь давайте импортируем его и настроим две наши точки с декартовыми координатами (0, 0, 0) и (3, 3, 3):
import numpy as np # Initializing the points point_1 = np.array((0, 0, 0)) point_2 = np.array((3, 3, 3))
Вместо того, чтобы выполнять расчет вручную, мы будем использовать вспомогательные методы NumPy, чтобы сделать его еще проще!
Операции и математические функции, необходимые для расчета евклидова расстояния, довольно просты: сложение, вычитание, а также функция квадратного корня. Несколько слагаемых также можно заменить суммой:
NumPy предоставляет нам функцию np.sqrt(), представляющую функцию квадратного корня, а также функцию np.sum(), которая представляет собой сумму. При этом расчет евклидова расстояния в Python прост и интуитивно понятен:
# Get the square of the difference of the 2 vectors square = np.square(point_1 - point_2) # Get the sum of the square sum_square = np.sum(square)
Данная формула дает нам довольно простой результат:
(0-3)^2 + (0-3)^2 + (0-3)^2
Что равно 27. Осталось все, что получить квадратный корень из этого числа:
# The last step is to get the square root and print the Euclidean distance distance = np.sqrt(sum_square) print(distance)
5.196152422706632
В истинном питоновом духе это можно сократить до одной строки:
И вы даже можете вместо этого использовать встроенные методы pow() и sum() математического модуля Python, хотя они требуют, чтобы вы немного поработали с вводом, который удобно абстрагируется с помощью NumPy, так как функция pow() работает только со скалярами (каждый элемент в массиве индивидуально) и принимает аргумент — в какой степени вы увеличиваете число.
Этот подход, однако, интуитивно больше похож на формулу, которую мы использовали раньше:
from math import * distance = np.sqrt(sum(pow(a-b, 2) for a, b in zip(point_1, point_2))) print(distance)
Это также приводит к:
5.196152422706632
np.linalg.norm()
Функция np.linalg.norm() представляет математическую норму. По сути, нормой вектора является его длина. Эта длина не обязательно должна быть евклидовым расстоянием, а может быть и другими расстояниями. Евклидово расстояние-это норма L2 вектора (иногда известная как евклидова норма), и по умолчанию функция norm() использует L2 — параметр ord имеет значение 2.
Если бы вы установили для параметра ord какое-то другое значение p, вы бы рассчитали другие p-нормы. Например, норма L1 вектора-это расстояние Манхэттена!
Имея это в виду, мы можем использовать функцию np.linalg.norm() для легкого и гораздо более чистого вычисления евклидова расстояния, чем использование других функций:
distance = np.linalg.norm(point_1-point_2) print(distance)
Это приводит к печати расстояния L2/евклида:
5.196152422706632
Нормализация L2 и нормализация L1 широко используются в машинном обучении для нормализации входных данных.
Мы также можем использовать точечное произведение для расчета евклидова расстояния. В математике точечное произведение является результатом умножения двух векторов равной длины, а результатом является единственное число — скалярное значение. Из-за возвращаемого типа его иногда также называют «скалярным продуктом». Эту операцию часто называют внутренним произведением для двух векторов.
Для расчета точечного произведения между 2 векторами вы можете использовать следующую формулу:
С помощью NumPy мы можем использовать функцию np.dot(), передавая два вектора.
Если мы вычислим точечное произведение разницы между обеими точками с той же разницей — мы получим число, которое находится в зависимости от евклидова расстояния между этими двумя векторами. Извлечение квадратного корня из этого числа дает нам расстояние, которое мы ищем:
# Take the difference between the 2 points diff = point_1 - point_2 # Perform the dot product on the point with itself to get the sum of the squares sum_square = np.dot(diff, diff) # Get the square root of the result distance = np.sqrt(sum_square) print(distance)
Конечно, вы также можете сократить это до однострочного:
distance = np.sqrt(np.dot(point_1-point_2, point_1-point_2)) print(distance)
5.196152422706632
Использование встроенной системы math.dist()
В Python есть встроенный метод в математическом модуле, который вычисляет расстояние между 2 точками в трехмерном пространстве. Однако это работает только с Python 3.8 или более поздней версии.
math.dist()принимает два параметра, которые являются двумя точками, и возвращает евклидово расстояние между этими точками.
Примечание: Обратите внимание, что две точки должны иметь одинаковые размеры (т.е. оба в 2d или 3d пространстве).
Теперь, чтобы вычислить Евклидово расстояние между этими двумя точками, мы просто заправляем их в метод thedistdist():
import math distance = math.dist(point_1, point_2) print(distance)
5.196152422706632
Заключение
Данная метрика используется во многих контекстах в интеллектуальном анализе данных, машинном обучении и ряде других областей и является одной из фундаментальных метрик расстояния.
- евклидово расстояние
- евклидова метрика
- евклидово пространство
Как рассчитать евклидово расстояние в Python (с примерами)
Евклидово расстояние между двумя векторами, A и B, рассчитывается как:
Евклидово расстояние = √ Σ(A i -B i ) 2
Чтобы вычислить евклидово расстояние между двумя векторами в Python, мы можем использовать функцию numpy.linalg.norm :
#import functions import numpy as np from numpy. linalg import norm #define two vectors a = np.array([2, 6, 7, 7, 5, 13, 14, 17, 11, 8]) b = np.array([3, 5, 5, 3, 7, 12, 13, 19, 22, 7]) #calculate Euclidean distance between the two vectors norm(a-b) 12.409673645990857
Евклидово расстояние между двумя векторами оказывается равным 12,40967 .
Обратите внимание, что эта функция выдаст предупреждающее сообщение, если два вектора имеют разную длину:
#import functions import numpy as np from numpy. linalg import norm #define two vectors a = np.array([2, 6, 7, 7, 5, 13, 14]) b = np.array([3, 5, 5, 3, 7, 12, 13, 19, 22, 7]) #calculate Euclidean distance between the two vectors norm(a-b) ValueError : operands could not be broadcast together with shapes (7,) (10,)
Обратите внимание, что мы также можем использовать эту функцию для вычисления евклидова расстояния между двумя столбцами кадра данных pandas:
#import functions import pandas as pd import numpy as np from numpy. linalg import norm #define DataFrame with three columns df = pd.DataFrame() #calculate Euclidean distance between 'points' and 'assists' norm(df['points'] - df['assists']) 40.496913462633174
Евклидово расстояние между двумя столбцами оказывается равным 40,49691 .
Заметки
1. Существует несколько способов вычисления евклидова расстояния в Python, но, как объясняется в этой ветке Stack Overflow , описанный здесь метод оказывается самым быстрым.
2. Полную документацию по функции numpy.linalg.norm вы можете найти здесь .
3. Вы можете обратиться к этой странице Википедии, чтобы узнать больше о евклидовом расстоянии.