사진 몇장으로 정확한 위치 파악이 정말 가능하다고??
라는 주제 입니다.
![](https://t1.daumcdn.net/keditor/emoticon/friends2/large/002.png)
이제 트랜스포머 AI를 활용해서 정말 우리가 찍은 인스타 사진 몇장으로 어디 위치인지 파악이 가능할까?
미국의 비영리매체인 NPR은 최근 스탠포트대학교 학생 3명이 구글 스트리트 뷰를 활용, 사진이 찍힌 장소를 찾아내는 '피전(Predicting Image Geolocations)'이라는 AI 애플리케이션을 개발했다고 보도했다.
![](https://blog.kakaocdn.net/dn/btrgMr/btsC8RxwtBB/K62PgkkCpGtkKngHTmKMk1/img.png)
행성 규모의 이미지 지리위치 파악은 전 세계 어디에서든 발생하는 이미지의 다양성으로 인해 여전히 어려운 문제입니다. 비전 트랜스포머를 기반으로 한 접근법은 지리 위치 파악 정확도에서 상당한 진전을 이루었지만, 이전 문헌에서의 성공은 랜드마크 이미지의 좁은 분포에 제한되어 있으며, 성능이 보이지 않는 장소에 대한 일반화에 제한이 있습니다. 저희는 시맨틱 지오셀 생성, 멀티태스크 콘트라스티브 프리트레이닝 및 새로운 손실 함수를 결합한 새로운 지리위치 시스템을 제안합니다. 또한, 우리의 작업은 추측 정제을 위한 위치 클러스터 검색을 수행하는 최초의 작업입니다. 저희는 Geoguessr 게임 데이터를 기반으로 한 첫 번째 모델인 PIGEON을 훈련시켰으며, 이 모델은 전 세계의 목표 위치 중 25 킬로미터 이내에 40% 이상의 추측을 할 수 있습니다. 또한, 저희는 봇을 개발하고 PIGEON을 인간들과의 블라인드 실험에서 사용하여 상위 0.01%의 성적을 기록했습니다. 더 나아가 세계적인 Geoguessr 선수 중 한 명에게 수백만 시청자를 대상으로 한 6차례의 대결을 제안하고, 모두에서 승리했습니다. 두 번째 모델 PIGEOTTO는 Flickr와 Wikipedia에서 가져온 이미지 데이터셋을 기반으로 훈련되었으며, 도시 정확도 수준에서 이전 SOTA를 최대 7.7 포인트, 국가 수준에서 최대 38.8 포인트까지 능가하는 국제적인 결과를 달성했습니다. 우리의 결과는 PIGEOTTO가 보이지 않는 장소에 효과적으로 일반화되는 최초의 이미지 지리위치 모델이라는 점을 시사하며, 우리의 방법이 높은 정확도의 행성 규모 이미지 지리위치 시스템의 길을 열 수 있음을 제안합니다. 우리의 코드는 GitHub에서 이용 가능합니다.
https://arxiv.org/abs/2307.05845
PIGEON: Predicting Image Geolocations
Planet-scale image geolocalization remains a challenging problem due to the diversity of images originating from anywhere in the world. Although approaches based on vision transformers have made significant progress in geolocalization accuracy, success in
arxiv.org
반면 자율 주행이나 연구 목적 등 긍정적인 사용 사례도 있다.
스탠포드대 연구진도 이런 위험을 인식, 모델 가중치를 공개하지 않고 대신 학문적 검증을 위한 코드만 공개했다. 관련 논문은 온라인 아카이브(arXiv)에서 확인할 수 있다.
출처 : AI타임스(https://www.aitimes.com)
정리해보면 다음과 같다!
PIGEON 및 PIGEOTTO 모델로 구성된 시스템은 지리위치 정확도 및 보이지 않는 장소에 대한 일반화의 문제를 해결합니다. 시맨틱 지오셀 생성, 멀티태스크 콘트라스티브 프리트레이닝, 그리고 새로운 손실 함수의 결합이 접근 방식의 성공에 기여합니다. 여기에 언급된 주요 포인트들을 분석하고 요약한 것은 다음과 같습니다:
문제 제시:
- 행성 규모 이미지 지리위치는 전 세계의 다양한 위치에서 발생하는 이미지의 다양성 때문에 어려운 문제입니다.
- 비전 트랜스포머를 기반으로 한 기존 접근법은 종종 랜드마크 이미지의 좁은 분포로 제한되어 보이지 않는 장소에 대한 일반화에서 제한이 있습니다.
제안된 해결책:
- 시스템은 시맨틱 지오셀 생성, 멀티태스크 콘트라스티브 프리트레이닝, 그리고 새로운 손실 함수를 결합하여 지리위치 정확도와 일반화를 향상시키기 위한 것입니다.
혁신:
- 비전 트랜스포머의 성능을 향상시키기 위해 새로운 손실 함수를 도입하였습니다.
- 추측 정제를 위해 위치 클러스터에서 검색을 수행하는 것은 새로운 기여입니다.
- 거리 수준 및 일반 이미지 지리위치를 위해 PIGEON 및 PIGEOTTO 두 모델을 훈련시키는 것입니다.
평가 결과:
- PIGEON은 Geoguessr 데이터로 훈련되어 전 세계의 목표 위치 중 25킬로미터 이내에 40% 이상의 추측 정확도를 달성합니다.
- PIGEON은 인간 플레이어를 능가하여 블라인드 실험에서 상위 0.01%에 랭킹되며, 프로 Geoguessr 플레이어에게 6번의 대결에서 승리합니다.
PIGEOTTO 모델:
- Flickr 및 Wikipedia의 다양한 데이터셋으로 훈련되었습니다.
- 도시 및 국가 정확도 수준에서 이전 최고 수준을 상당히 능가하는 다양한 이미지 지리위치 벤치마크에서 최고 수준의 결과를 달성합니다.
- 보이지 않는 장소에 효과적으로 일반화되어 이미지 지리위치에서 혁신적인 모델로 나타납니다.
결론:
- 결과는 PIGEOTTO가 보이지 않는 장소에 효과적으로 일반화되는 최초의 이미지 지리위치 모델이라는 가능성을 시사합니다.
- 제안된 방법은 고정도의 행성 규모 이미지 지리위치 시스템을 위한 길을 열 수 있습니다.
코드 이용 가능성:
- 지리위치 시스템의 코드는 GitHub에서 이용 가능하여 투명성과 재현성을 촉진합니다.
이 요약은 행성 규모 이미지 지리위치 분야에서의 연구의 중요한 기여와 성과를 개요로 제시합니다.
오늘 놀라운 소식은 여기서 마치겠다.
그럼 좋은 하루 되세요^^
![](https://t1.daumcdn.net/keditor/emoticon/friends1/large/002.gif)
'인공지능' 카테고리의 다른 글
[주식]NVIDIA 엔비디아 과연 시총 1위 가능한가? (0) | 2024.02.25 |
---|---|
[인공지능]AI 소라 , Capcut 등 영상을 인공지능이 스스로 만들어준다고? (3) | 2024.02.25 |
[인공지능#26]애플 링? 스마트링을 소개한다. (4) | 2023.12.25 |
[인공지능#25] 이렇게까지 인공지능이 어마하게 발전하는데 큰 공로를 한 분은 누구? (8) | 2023.12.02 |
[인공지능#24]영화와 같아지는 미래 전쟁 (4) | 2023.12.02 |