IndexError: list index out of range 관련 초보같은 질문입니다

조회수 1687회

너무 초보스러운 질문같아 죄송합니다. 네이버에서 크롤링한 txt파일을 word2vec으로 분석하기 위해서 tokenize하려는 과정에서 list index오류가 나는데 해결방법을 모르겠어서 질문 올립니다.

인터넷에서 찾은 코드를 바탕으로 제 자료를 분석하려는데,

def tokenize(doc):

return ['/'.join(t) for t in pos_tagger.pos(doc, norm=True, stem=True)]

하고나서,

train_docs = [(tokenize(row[1]), row[2]) for row in train_data]

Traceback (most recent call last):

File "", line 1, in

train_docs = [(tokenize(row[1]), row[2]) for row in train_data]

File "", line 1, in

train_docs = [(tokenize(row[1]), row[2]) for row in train_data]

IndexError: list index out of range

이런 메시지가 나옵니다. 아마 제가 참고한 코드에서 사용한 자료는 column이 각 줄마다 3개씩인데, 제가 적용하려는 자료는 한 줄에 column이 한개밖에 없어서 (한 줄에 댓글 1개씩) 그런 것 같습니다. 죄송합니다만 어떻게 고치면 토크나이징이 가능할지 알고싶습니다. 감사합니다.

  • (•́ ✖ •̀)
    알 수 없는 사용자
  • 분석하려는 문자열이 뭔가요? 즉 doc 값이 무엇인지요? 정영훈 2018.10.15 18:37
  • 답변감사합니다. 죄송합니다만, 어떻게 하면 그걸 확인할수 있나요? 텍스트 파일을 열어서 맨 위에 있는 것들 복사해서 붙여넣으면, 와 진짜 드라마보다 더 재밌다 여자 컬링 경기 ㅎㅎ 한국여자비하하고 일본여자찬양하는사람들 제발 일본사람이랑 결혼하시길 ! 응원합니당 여기댓글이 우리나라 여성인권의 현주소 댓글이 이상하면 고개를 들어 성비를 보아라 얼평 못잃는 한남들ㅋㅋㅋㅋㅋㅋㅋㅋㅋ 여기댓글들 다 한남들인가 왜이렇게 질떨어져ㅋㅋ 이런 식입니다~! 네이버 뉴스 댓글에서 가져왔습니다. 알 수 없는 사용자 2018.10.15 18:42
  • from konlpy.tag import Twitter pos_tagger = Twitter() 도 맨 처음에 입력했습니다 알 수 없는 사용자 2018.10.15 19:21
  • print(type(train_data)) 을 입력하면 class 'list' 라고 나옵니다 알 수 없는 사용자 2018.10.15 19:30
  • 아. 분석하려는 대상은 1만개 정도의 댓글이 들어있는 txt 파일입니다 알 수 없는 사용자 2018.10.15 19:33
  • doc 는 문자열 즉 하나의 라인 아닌가요? 정영훈 2018.10.15 22:14
  • 아.. len 으로 보면 11000 줄 정도라고 나옵니다. 알 수 없는 사용자 2018.10.15 23:17

답변을 하려면 로그인이 필요합니다.

프로그래머스 커뮤니티는 개발자들을 위한 Q&A 서비스입니다. 로그인해야 답변을 작성하실 수 있습니다.

(ಠ_ಠ)
(ಠ‿ಠ)