인공지능

[인공지능#27]사진 몇장으로 정확한 위치 파악이 정말 가능하다고??

오뚜기정보 2024. 1. 7. 08:34

사진 몇장으로 정확한 위치 파악이 정말 가능하다고??

라는 주제 입니다.

 

이제 트랜스포머 AI를 활용해서 정말 우리가 찍은 인스타 사진 몇장으로 어디 위치인지 파악이 가능할까?

 

 

사진 몇장 만으로 촬영된 위치를 찾아낼 수 있는 인공지능(AI) 기술이 개발됐다. 그러나 정부의 감시나 사생활 노출, 스토킹 등에 악용될 소지 때문에 모델 전체를 공개하지는 않았다.

미국의 비영리매체인 NPR은 최근 스탠포트대학교 학생 3명이 구글 스트리트 뷰를 활용, 사진이 찍힌 장소를 찾아내는 '피전(Predicting Image Geolocations)'이라는 AI 애플리케이션을 개발했다고 보도했다.
 
그 내용은 다음과 같다.
Planet-scale image geolocalization remains a challenging problem due to the diversity of images originating from anywhere in the world. Although approaches based on vision transformers have made significant progress in geolocalization accuracy, success in prior literature is constrained to narrow distributions of images of landmarks, and performance has not generalized to unseen places. We present a new geolocalization system that combines semantic geocell creation, multi-task contrastive pretraining, and a novel loss function. Additionally, our work is the first to perform retrieval over location clusters for guess refinements. We train two models for evaluations on street-level data and general-purpose image geolocalization; the first model, PIGEON, is trained on data from the game of Geoguessr and is capable of placing over 40% of its guesses within 25 kilometers of the target location globally. We also develop a bot and deploy PIGEON in a blind experiment against humans, ranking in the top 0.01% of players. We further challenge one of the world's foremost professional Geoguessr players to a series of six matches with millions of viewers, winning all six games. Our second model, PIGEOTTO, differs in that it is trained on a dataset of images from Flickr and Wikipedia, achieving state-of-the-art results on a wide range of image geolocalization benchmarks, outperforming the previous SOTA by up to 7.7 percentage points on the city accuracy level and up to 38.8 percentage points on the country level. Our findings suggest that PIGEOTTO is the first image geolocalization model that effectively generalizes to unseen places and that our approach can pave the way for highly accurate, planet-scale image geolocalization systems. Our code is available on GitHub.
 

행성 규모의 이미지 지리위치 파악은 전 세계 어디에서든 발생하는 이미지의 다양성으로 인해 여전히 어려운 문제입니다. 비전 트랜스포머를 기반으로 한 접근법은 지리 위치 파악 정확도에서 상당한 진전을 이루었지만, 이전 문헌에서의 성공은 랜드마크 이미지의 좁은 분포에 제한되어 있으며, 성능이 보이지 않는 장소에 대한 일반화에 제한이 있습니다. 저희는 시맨틱 지오셀 생성, 멀티태스크 콘트라스티브 프리트레이닝 및 새로운 손실 함수를 결합한 새로운 지리위치 시스템을 제안합니다. 또한, 우리의 작업은 추측 정제을 위한 위치 클러스터 검색을 수행하는 최초의 작업입니다. 저희는 Geoguessr 게임 데이터를 기반으로 한 첫 번째 모델인 PIGEON을 훈련시켰으며, 이 모델은 전 세계의 목표 위치 중 25 킬로미터 이내에 40% 이상의 추측을 할 수 있습니다. 또한, 저희는 봇을 개발하고 PIGEON을 인간들과의 블라인드 실험에서 사용하여 상위 0.01%의 성적을 기록했습니다. 더 나아가 세계적인 Geoguessr 선수 중 한 명에게 수백만 시청자를 대상으로 한 6차례의 대결을 제안하고, 모두에서 승리했습니다. 두 번째 모델 PIGEOTTO는 Flickr와 Wikipedia에서 가져온 이미지 데이터셋을 기반으로 훈련되었으며, 도시 정확도 수준에서 이전 SOTA를 최대 7.7 포인트, 국가 수준에서 최대 38.8 포인트까지 능가하는 국제적인 결과를 달성했습니다. 우리의 결과는 PIGEOTTO가 보이지 않는 장소에 효과적으로 일반화되는 최초의 이미지 지리위치 모델이라는 점을 시사하며, 우리의 방법이 높은 정확도의 행성 규모 이미지 지리위치 시스템의 길을 열 수 있음을 제안합니다. 우리의 코드는 GitHub에서 이용 가능합니다.

 

 

https://arxiv.org/abs/2307.05845

 

PIGEON: Predicting Image Geolocations

Planet-scale image geolocalization remains a challenging problem due to the diversity of images originating from anywhere in the world. Although approaches based on vision transformers have made significant progress in geolocalization accuracy, success in

arxiv.org

 

 

이에 따르면 피전은 사진 속 국가를 92%의 정확도로 예측할 수 있으며, 40% 이상의 확률로 실제 위치에서 25마일(약 40km) 이내의 위치를 ​​찾아낼 수 있다
 
위치 추적에 대한 위험성은 이미 수차례 지적됐다. 제이 스탠리 미국시민자유연맹(ACLU) 수석 정책 분석가는 "기업이나 정부가 상업적 목적이나 보안을 핑계로 AI를 사용할 수도 있고, 스토킹 가능성도 큰 위협"이라고 밝혔다.

반면 자율 주행이나 연구 목적 등 긍정적인 사용 사례도 있다.

스탠포드대 연구진도 이런 위험을 인식, 모델 가중치를 공개하지 않고 대신 학문적 검증을 위한 코드만 공개했다. 관련 논문은 온라인 아카이브(arXiv)에서 확인할 수 있다.

출처 : AI타임스(https://www.aitimes.com)

 

 

정리해보면 다음과 같다!

 

PIGEON 및 PIGEOTTO 모델로 구성된 시스템은 지리위치 정확도 및 보이지 않는 장소에 대한 일반화의 문제를 해결합니다. 시맨틱 지오셀 생성, 멀티태스크 콘트라스티브 프리트레이닝, 그리고 새로운 손실 함수의 결합이 접근 방식의 성공에 기여합니다. 여기에 언급된 주요 포인트들을 분석하고 요약한 것은 다음과 같습니다:

문제 제시:

  • 행성 규모 이미지 지리위치는 전 세계의 다양한 위치에서 발생하는 이미지의 다양성 때문에 어려운 문제입니다.
  • 비전 트랜스포머를 기반으로 한 기존 접근법은 종종 랜드마크 이미지의 좁은 분포로 제한되어 보이지 않는 장소에 대한 일반화에서 제한이 있습니다.

제안된 해결책:

  • 시스템은 시맨틱 지오셀 생성, 멀티태스크 콘트라스티브 프리트레이닝, 그리고 새로운 손실 함수를 결합하여 지리위치 정확도와 일반화를 향상시키기 위한 것입니다.

혁신:

  • 비전 트랜스포머의 성능을 향상시키기 위해 새로운 손실 함수를 도입하였습니다.
  • 추측 정제를 위해 위치 클러스터에서 검색을 수행하는 것은 새로운 기여입니다.
  • 거리 수준 및 일반 이미지 지리위치를 위해 PIGEON 및 PIGEOTTO 두 모델을 훈련시키는 것입니다.

평가 결과:

  • PIGEON은 Geoguessr 데이터로 훈련되어 전 세계의 목표 위치 중 25킬로미터 이내에 40% 이상의 추측 정확도를 달성합니다.
  • PIGEON은 인간 플레이어를 능가하여 블라인드 실험에서 상위 0.01%에 랭킹되며, 프로 Geoguessr 플레이어에게 6번의 대결에서 승리합니다.

PIGEOTTO 모델:

  • Flickr 및 Wikipedia의 다양한 데이터셋으로 훈련되었습니다.
  • 도시 및 국가 정확도 수준에서 이전 최고 수준을 상당히 능가하는 다양한 이미지 지리위치 벤치마크에서 최고 수준의 결과를 달성합니다.
  • 보이지 않는 장소에 효과적으로 일반화되어 이미지 지리위치에서 혁신적인 모델로 나타납니다.

결론:

  • 결과는 PIGEOTTO가 보이지 않는 장소에 효과적으로 일반화되는 최초의 이미지 지리위치 모델이라는 가능성을 시사합니다.
  • 제안된 방법은 고정도의 행성 규모 이미지 지리위치 시스템을 위한 길을 열 수 있습니다.

코드 이용 가능성:

  • 지리위치 시스템의 코드는 GitHub에서 이용 가능하여 투명성과 재현성을 촉진합니다.

이 요약은 행성 규모 이미지 지리위치 분야에서의 연구의 중요한 기여와 성과를 개요로 제시합니다.

 

 

 

오늘 놀라운 소식은 여기서 마치겠다.

 

그럼 좋은 하루 되세요^^