Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

stabilize normalization results by modifying sampling process #15

Open
wants to merge 17 commits into
base: dev
Choose a base branch
from

Conversation

leahincom
Copy link
Collaborator

@leahincom leahincom commented Aug 23, 2021

normalize.py

  • random 하게 sampling 하여 결과가 일정하지 않은 문제 해결
  • 샘플링한 데이터에 autonormalize를 수행해서 normalize 대상을 파악하는 과정 반복 (default: 5로 설정해둠)
  • 위의 결과를 이용해 최종적으로 기존 데이터에 대해 normalize 수행

@leahincom leahincom requested a review from cezanne August 23, 2021 12:46
@leahincom leahincom self-assigned this Aug 23, 2021
@cezanne
Copy link
Member

cezanne commented Aug 23, 2021

기존 방식처럼 dataframe의 sample() 함수는 random하게 sampling을 잘 할겁니다. 굳이 재반복해서 sampling을 하여 교집합을 찾을 필요는 없어요..
다시 설명을 하면, sampling한 것으로 autonormalize 후 결과값이 나올 것이고, 이 과정을 수차례 반복한 결과값들의 공통 컬럼들을 기준으로 최종 normalize를 하는 것으로 하자는 것입니다.

@leahincom
Copy link
Collaborator Author

기존 방식처럼 dataframe의 sample() 함수는 random하게 sampling을 잘 할겁니다. 굳이 재반복해서 sampling을 하여 교집합을 찾을 필요는 없어요..
다시 설명을 하면, sampling한 것으로 autonormalize 후 결과값이 나올 것이고, 이 과정을 수차례 반복한 결과값들의 공통 컬럼들을 기준으로 최종 normalize를 하는 것으로 하자는 것입니다.

넵! 참고해서 수정한 후 다시 PR 올리겠습니다.
감사합니다 :)

for _ in range(5):
df = df.sample(n=1000)
es = an.auto_entityset(df, index=key_colname, accuracy=0.98)
entities.update(es.entities[1:])
Copy link
Member

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

현재 코드는 원하는 방식은 아닌 거 같습니다. 찾아낸 entity와 relationship들의 교집합이 되어야 될 거 같습니다. 그런데 단순히 set을 써서 합집합, 교집합을 얻어내는 것이라기 보다는 entity의 컬럼의 교집합이 되어야 하지 않을지? 설명이 어렵네요. ㅠ

cezanne and others added 16 commits August 29, 2021 21:29
Now, column spec will be OK if it has no key column. In that case,
a temporary key is generated, whose column name is 'id' or 'id_xxx'.
A label file for importance should have exactly one label column.
Old implementation assumed that a label file has only 1 numeric column.
Also, apply validation for FeatureImportance.
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

Successfully merging this pull request may close these issues.

2 participants